Deepseek 的创新开源模型MLA 通过低秩健值联合压缩的注意力机制。显著减小kv缓存的同时提高计算效率。MOEDeepseek-MoEV3使用了61个MoE( Mix of Expert 混合专家)block,虽然总参数量很大但每次训练或推理时只激活了很少的链路训练成本大大降低推理速度显著提高。MoE 类比医院的分诊台在过去所有病人都要找全科医生效率低。混合精度框架使用了FP8数据格式但为了简化说明只展示了线性算子(Linear Operator)的部分在不同区块里使用不同的精度来存储数据。我们知道精度高占用内存多运算复杂度大。Deepseek 在一些不需要高精度的模块使用很低的精度FP8存储数据。名称规则Qwen3-Coder-480B-A35B-Instruct480B 完整尺寸的模型参数大小A35B 激活的参数数量是35BQ : 为什么Deepseek 计算速度快成本低架构设计方面DeepSeek MoE 架构在推理时仅激活部分专家避免了激活所有参数带来的计算资源浪费MLA 架构MLA通过降秩kv 矩阵减少了显存消耗。训练策略方面多token 预测MTP目标在训练过程中采用了多token预测目标即在每个位置上预测多个未来token,增加了训练信号的密度提高了数据效率。混合精度训练框架在训练中对于占据大量计算量的通用矩阵乘法GEMM操作采用FP8精度执行。同时通过细粒度量化策略和高精度累积过程解决了低精度训练中出现的量化误差问题。Q 为什么Deepseek-R1的推理能力强大强化学习驱动DeepSeek-R1 通过大规模强化学习技术显著提升了推理能力。在数学、代码和自然语言长链推理CoT技术DeepSeek-R1采用长链推理技术其思维链长度可达数万字能够逐帧分解复杂问题通过多步骤的逻辑推理来解决问题