Deepseek 的创新及计算速度快和成本低的原因

张

张建站

2026/5/16 1:28:40

10分钟阅读

Deepseek 的创新开源模型MLA 通过低秩健值联合压缩的注意力机制。显著减小kv缓存的同时提高计算效率。MOEDeepseek-MoEV3使用了61个MoE( Mix of Expert 混合专家)block,虽然总参数量很大但每次训练或推理时只激活了很少的链路训练成本大大降低推理速度显著提高。MoE 类比医院的分诊台在过去所有病人都要找全科医生效率低。混合精度框架使用了FP8数据格式但为了简化说明只展示了线性算子(Linear Operator)的部分在不同区块里使用不同的精度来存储数据。我们知道精度高占用内存多运算复杂度大。Deepseek 在一些不需要高精度的模块使用很低的精度FP8存储数据。名称规则Qwen3-Coder-480B-A35B-Instruct480B 完整尺寸的模型参数大小A35B 激活的参数数量是35BQ : 为什么Deepseek 计算速度快成本低架构设计方面DeepSeek MoE 架构在推理时仅激活部分专家避免了激活所有参数带来的计算资源浪费MLA 架构MLA通过降秩kv 矩阵减少了显存消耗。训练策略方面多token 预测MTP目标在训练过程中采用了多token预测目标即在每个位置上预测多个未来token,增加了训练信号的密度提高了数据效率。混合精度训练框架在训练中对于占据大量计算量的通用矩阵乘法GEMM操作采用FP8精度执行。同时通过细粒度量化策略和高精度累积过程解决了低精度训练中出现的量化误差问题。Q 为什么Deepseek-R1的推理能力强大强化学习驱动DeepSeek-R1 通过大规模强化学习技术显著提升了推理能力。在数学、代码和自然语言长链推理CoT技术DeepSeek-R1采用长链推理技术其思维链长度可达数万字能够逐帧分解复杂问题通过多步骤的逻辑推理来解决问题

jetson orin nx上安装lerobot但是lerobot_train这个命名找不到的折腾过程

环境中没有安装 LeRobot 包，所以找不到 lerobot_train 模块 # 确保在 ~/lerobot 目录下，且激活了 lerobot_py310 环境 conda activate lerobot_py310 cd ~/lerobot# 安装 LeRobot（使用国内镜像加速） pip install -e . -i https://pypi.tuna.tsinghua.edu.cn/simple cd ~/…...

2026/5/16 1:26:07 阅读更多 →

网络调试笔记

一、设备网口与平板（没有网口）通过网络连接的方式1、不用wifi连接： RJ45网口外接设备可以进行无线传输，其中外接设备有：a. 无线网卡；(让网卡工作在热点模式，即AP模式，让后让平板直…...

2026/5/16 1:26:06 阅读更多 →

SAP-ABAP：第二篇：实操避坑篇——ABAP Hello World程序创建、语法校验到调试运行全流程指南

第一个ABAP程序Hello World调试运行（3篇） 第二篇：实操避坑篇——ABAP Hello World程序创建、语法校验到调试运行全流程指南明明照着教程一步步做，为什么我的程序就是激活不了？断点打上了却不停？输出了空白&…...

2026/5/16 1:24:06 阅读更多 →

BriSe AI：构建类脑自我层次模型，从模式匹配迈向自主理解

1. 项目概述：从“模仿”到“涌现”的范式跃迁最近和几位做认知科学和神经科学的朋友聊得比较多，大家都有一个共同的感受：当前主流的人工智能，无论是大语言模型还是多模态模型，本质上还是在做“模式匹配”和“概率预测…...

2026/5/14 22:43:30 阅读更多 →

6G边缘计算与生成式AI融合：基于LDM与DRL的协同优化架构实践

1. 项目概述：当6G边缘计算遇上生成式AI最近和几个做通信和AI的朋友聊天，大家不约而同地提到了一个词：6G边缘生成式AI。这听起来像是把几个最前沿的技术名词硬凑在一起，但当你真正拆开来看，会发现它背后指向的是一个非常…...

2026/5/14 23:24:41 阅读更多 →

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否曾因为Windows系统变得越来越臃肿而…...

2026/5/14 23:26:08 阅读更多 →