tgoop.com/tms_ur_way/3693
Last Update:
Daily Productive Sharing 1067 - DeepSeek FAQ
关于 Deepseek 的 R1 模型发布,由众多的分析文章,生活在台北的 Ben Thompson 写的这篇深入浅出,非常透彻:
1. 技术上,Deepseek 最大的突破就是把训练成本降低了两个数量级,这主要是因为他们运用了 DeepSeekMoE 和 DeepSeekMLA,其实他们早在一年前就在 V2 模型中运用了,只不过这次更加精进;
2. MoE 指的是“专家混合”(mixture of experts,它将模型拆分为多个“专家”,仅激活必要的部分,这样可以大大降低推理成本。在V2中实现的
DeepSeekMoE 对这一概念进行了重要创新,包括将专家细分为更精细化的专用专家以及具备更通用能力的共享专家;
3. DeepSeekMoE 还引入了训练过程中的负载均衡和路由新方法,他们的做法使训练同样更为高效;
4. DeepSeekMLA,即多头潜在注意力机制,使得压缩键值存储成为可能,从而在推理过程中大幅降低内存使用量;
5. V3的训练成本低得令人震惊。DeepSeek宣称,模型训练总共耗时2788千H800 GPU小时,按每小时2美元计算,总费用仅为557.6万美元。尽管参数以 BF16 或 FP32 精度存储,但在计算时会降至 FP8 精度;而2048台 H800 GPU 的总计算能力达3.97 exaFLOPs,即3.97万亿亿 FLOPS;
6. DeepSeek实际上将每台H800中132个处理单元中的20个专门编程,用于管理跨芯片通信;
7. 为了突破 GPU 带宽的限制,DeepSeek 工程师不得不优化 PTX——Nvidia GPU的低级指令集,基本上相当于汇编语言。而使用带宽更多的 GPU 则根本不需要考虑这些,只要在 CUDA 上优化即可;
8. 如果 DeepSeek 能使用H100,他们可能会选择更大规模的训练集群,而不必进行如此多针对带宽不足的优化;
9. 对于公司而言,在自有模型上进行蒸馏较为容易,因为他们拥有全部访问权限,但你也可以通过API,或者更具创意地通过聊天客户端,以稍显笨拙的方式进行蒸馏;
https://letters.acacess.com/daily-productive-sharing-1167/
BY DPS Main
![](https://photo2.tgoop.com/u/cdn4.cdn-telegram.org/file/QD0LsVSBatAvh-n464iMGjHs1c4L4ZCMlj3nAlurjO-1rf_howJhvc7cu2ZHfISKKyiQNo6xEWiv0aX4juyATHlAbf4MeKoRrkFysz1hjqgGhnvF0oo6lOK23b5opNxvVo11Mc1bFCuNyvQnXNSf9yJ65DNNQQ5pn5u3Dj6w2k3jXedyy3hYfjN5ZfYB-bhk_YrMCuhjNDLHx10Ty6qaoc39k3jDHlgSYKCsxyx_24snH2Vj0hft_vLMzU-jXNMkHtr6bhQtmHUKVWNEofyEd2DW_QV2F3nh9gA_vSKNQ6cyturJ-05r3y-L_FGzxUSSlEBScemTplZj627o6gWAqA.jpg)
Share with your friend now:
tgoop.com/tms_ur_way/3693