DeepSeek-V3降低训练成本的技术

薄皮大馅西瓜 2024-12-30 11:28:00

DeepSeek-V3能够降低训练成本的几个主要技术是：① 模型架构改进② FP8训练 ③ Multi-token Prediction。这几个技术都是既可以用在训练上，也可以用在推理上的。其中①中的两个架构改进（细粒度MoE和MLA），都是DeepSeek前期论文发表过的工作，是他们自己独创的改进； ②FP8训练，一起从来没有人能够在这么大规模的系统上能用这么低精度的参数直接训练，这是非常大的成果，节省的训练算力也是巨大的；当然其他模型训练好以后也可以量化到FP8进行推理，但从来没有能做到直接用FP8训练这么大模型； ③MTP的思想虽然不是DeepSeek首次提出的，但他们做了改进并且能够在这么大模型的训练上用起来，这也是第一次。至于蒸馏R1的能力，确实是节省了训练成本，但这个主要是带来长链推理（主要是代码和数学）能力的提高，属于锦上添花，不影响模型的基本能力。至于合成数据、数据配比实验等等，这是现在所有模型训练都要做的事情，没有必要跟训练模型本身所用的时间混为一谈。#DeepSeek-V3

0 阅读：4

薄皮大馅西瓜

职场上的那些事~

作者最新文章

1

泰国真的不能去，泰国就是贩卖人口的中转站，去了各种陷阱等着你。就拿去年的数据

2

21岁的中国女孩吴佳琪独自去泰国旅游后失联了。她是第一次出国旅游，跟着网上认识的

3

王星被朋友金灿骗去缅甸搞电信诈骗，囚禁殴打！还好，警方跨国合作把他救回来了。

4

泰国在这一诈骗乱象里也扮演着复杂的角色。尽管有泰国警察承认境内存在协助诈骗的公司

5

为何诈骗集团对明星群体如此“青睐”？一方面，明星的高曝光度使其拥有庞大且忠

6

西藏地震，亲历者讲述: 卓玛，地震时，卓玛正在定日县珠峰三路三楼的家中睡觉，睡

7

地震逃生，一定要记住这3点： 1.不管你住在1楼还是30楼，地震刚发生的几十秒

8

地震震级有 6.8 级，能量巨大，关键震源深度才 10 千米，是浅源地震，那破坏

9

泰国警方强调必须确认王星是人口贩卖受害者才能让他回国，也就意味着，泰国警方对王星

10

西藏定日县地震，已致53人遇难62人受伤。今天（1月7日）上午9时05分，在

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

职场TOP

1

前往乡政府欲盖章，不巧正值假期，空无一人。我尝试着用卡片打开了乡长办公室的门，

2

温柔优雅的职场女神，粉色衬衫配眼镜，气质出众！邻家甜美女神高清美姿写真职业装

3

2006年，赵本山把关婷娜叫到办公室：“小关啊，我想让你做我的御用老伴，愿不愿意

4

你们老板办公室挂什么？[吃瓜]

5

办公室一个女同事36岁了，去年经人介绍了男朋友，二人相处了半年互相感觉都不错，准

6

“招聘人去坐牢吗”……

7

今天上午，学校一位中层领导跑去查岗。发现年轻女老师没在办公室，就打电话，假称校长

8

詹姆斯职业生涯最高得分61分库里职业生涯最高得分62分詹姆斯职业生涯最高篮板

9

这才是真正的湖人队史最佳阵容：1、奥尼尔：中锋，职业生涯场均23.7分2、詹

10

昨晚喝多了冰啤拉了一晚上，早上上班迟到了，被老总叫到办公室。进去一看还有一同事也

职场最新文章

1

到可怕的女人，有这样10个表现？1，说不联系就不联系；2，说不爱了就决不回头；3

2

同事老张办离职那天，公司发车厘子，办公室5个人，只给了4箱。老张收拾东西时笑着

3

太欺负人了！哈尔滨某著名地方银行招聘一名保洁员，要求如下：女性，62周岁以下，

4

2025年4月事业运爆棚的3大生肖！谁将逆袭上位？

5

詹姆斯职业生涯最高得分61分库里职业生涯最高得分62分詹姆斯职业生涯最高篮板

6

我外甥女挺着六个月大的肚子去医院做产检，检查完医生直接把人喊到办公室，说孩子可能

7

河北，男子上班时，经常和女同事在办公室嬉戏打闹，很没有界限。随着越来越熟悉，男子

8

今天上午，学校一位中层领导跑去查岗。发现年轻女老师没在办公室，就打电话，假称校长

9

前往乡政府欲盖章，不巧正值假期，空无一人。我尝试着用卡片打开了乡长办公室的门，

10

2006年，赵本山把关婷娜叫到办公室：“小关啊，我想让你做我的御用老伴，愿不愿意