DeepSeek-V3降低训练成本的技术
薄皮大馅西瓜
2024-12-30 11:28:00
DeepSeek-V3能够降低训练成本的几个主要技术是:① 模型架构改进② FP8训练 ③ Multi-token Prediction。
这几个技术都是既可以用在训练上,也可以用在推理上的。其中①中的两个架构改进(细粒度MoE和MLA),
都是DeepSeek前期论文发表过的工作,是他们自己独创的改进;
②FP8训练,一起从来没有人能够在这么大规模的系统上能用这么低精度的参数直接训练,这是非常大的成果,节省的训练算力也是巨大的;
当然其他模型训练好以后也可以量化到FP8进行推理,但从来没有能做到直接用FP8训练这么大模型;
③MTP的思想虽然不是DeepSeek首次提出的,但他们做了改进并且能够在这么大模型的训练上用起来,这也是第一次。
至于蒸馏R1的能力,确实是节省了训练成本,但这个主要是带来长链推理(主要是代码和数学)能力的提高,
属于锦上添花,不影响模型的基本能力。至于合成数据、数据配比实验等等,
这是现在所有模型训练都要做的事情,没有必要跟训练模型本身所用的时间混为一谈。#DeepSeek-V3
0
阅读:4