从腾讯混元升级，看国产大模型的226天

文｜郝鑫

编｜王一粟

226天、7个多月后，头部的国产通用大模型已陆续突破了GPT3.5的基准线。

近日，腾讯混元大模型升级，称中文能力整体超过GPT3.5；百度发布文心大模型4.0，表示综合水平与GPT4相比已经毫不逊色；商汤“商量SenseChat2.0”测评表现均领先ChatGPT，部分已十分接近GPT 4的水平；科大讯飞发布“讯飞星火”认知大模型V3.0，宣布已全面对标GPT3.5。

“国内（大模型）在GPT3.5这条线都过了，但要理性看待。所谓的超过，可能要基于各自平台和局部的指标，比如利用腾讯混元大模型在广告行业，生成的图片风格、采用率等就小胜GPT4”，腾讯机器学习平台算法负责人康战辉，在腾讯混元大模型升级媒体交流会现场的自我评价，一如既往地非常克制。

当技术逐渐拉齐，除了继续追赶GPT4的步伐，从实验室走向千行百业，一些过去曾被忽视的问题也随之浮出水面：

不计成本，大力出奇迹、扩大参数的暴力路径走不通后，如何才能用较少的成本，达到原来同等或近似的训练、推理效果？

千亿级的大模型和70亿、50亿的中小模型，通用大模型和行业模型、业务场景模型，如何才能优势最大化？

总之，走出象牙塔的大模型，需要在效果、成本支出、商业化三方面，找寻到平衡点。

以上种种问题的答案，或许能从腾讯混元大模型的此次升级中得以一窥。既从一开始的大模型框架底座层去优化设计，并提升推理、训练、数学、代码、文生图等基础能力，也在广告、游戏、会议、文档等优势业务场景实践中摸索。

与其他的大模型相比，腾讯混元是算法与工程优化两条腿走路，底层大模型的能力固然很重要，但在业务场景倒逼出来的实践，更加实用。

新增“文生图”，混元大模型迈向多模态

9月7日，2023腾讯全球数字生态大会上，混元大模型初次亮相。

仅一个月过后，腾讯混元大模型迎来重要升级。中文能力整体超过GPT3.5，其中代码能力处理水平提升超过20%，代码处理效果胜出ChatGPT 6.34%，数学能力较老版效果提升15%。

最为重要的是，此次腾讯还推出了自研混元文生图算法模型，给混元增加了“文生图”的能力。

“文生图”是混元大模型向多模态探索的第一步，也是关键的一步。据光锥智能实测，相比其他大模型，混元大模型在人像真实感、场景真实感上有比较明显的优势，同时，在中国风景、动漫游戏等场景生成上有较好的表现。

（混元大模型生成）

据腾讯混元大模型文生图技术负责人芦清林介绍，文生图算法有三个难点：

一是，能不能把想输入的文本准确地生成出来，并用图片来表达，比如能否理解中文语境中的“女娲补天”；

二是，怎样能让生成图片的构图更加合理；

三是，生成的质感和细节是否足够丰富。

为了解决以上的难点，混元从0到1自研了一个文生图模型结构。

该结构不同于市面上流行的“一步到位”模型，而是将文生图分解为了三部分，第一部分是跨模态的预训练大模型，专门做图文对齐，保障输入文字编码、解码语义准确；第二部分是基于像素空间扩散的生成主模型，通过逐步去噪，来还原图片，并生成小图；第三部分是影空间的超生模型，也是混元区别于市面上SD主流文生图的地方，把之前的小图进一步扩展成大图，保证最终生成后的纹理和质感。

腾讯官方透露，该能力已运用到了广告业务场景中，腾讯混元文生图的案例优秀率和广告主采纳率分别达到86%和26%，均高于同类模型。

与走精专路线的Midjourney相比，在广告场景下，腾讯混元众测goodcase率比Midjourney高16%，广告主测评采纳率高48%。且广告主也普遍反映，混元生成的广告素材也更接近投放的场景构图和质感要求。

除了文生图，能让“程序员干掉程序员”的代码能力的升级也是重要的一块儿，分为两个具体方向：

一方面支持自然语言和多种程序语言生成代码。

比如只需输入简单的指令“帮我用前端语言实现一个贪吃蛇”，腾讯混元便能自动生成可运行的代码，快速制作出一个贪吃蛇小游戏；还支持Python、C++、Java、Javascript等多种语言的指令生成，比如输入“用Python画红色的心形线”，腾讯混元会提供代码库选择、安装命令、绘制代码等具体操作步骤的指引。

另一方面则更适用于专业程序员、工程师使用，比如，在IDE编程场景中，腾讯工蜂Copilot通过接入混元大模型，可根据注释生成对应代码，或基于上下文智能补全代码，还可以帮助用户进行代码漏洞检测和修复，保障软件开发过程中的安全性。

康战辉告诉光锥智能，此次代码技术在代码预训练和具体代码任务上做了升级，整体的思路是模拟人学习代码过程，先输入再输出，从简单指令到复杂指令。

“在代码预训练环节，通过输入自然语言、代码文件、日志、文档等大量的计算数据，来构建大语言模型底座。在具体代码环节，通过类似于上下文填空、打标签的技术来提高模型对代码语义的理解和提升具体需求生成代码的能力。”康战辉称。

大模型从娘胎里就是一个偏科生，重文而轻理。为了从根上解决这个问题，提升数学能力，混元大模型首要任务就是给大模型喂更多数理化知识，优化文、理数据的配比。

在解题过程中，混元大模型引入了渐进思维链和强化学习RSR算法，前者可有效追踪每一解题步骤，克服重结果轻过程的问题，后者则可以在得出正确答案的基础上，判别答案的“好坏”。

可以看到，腾讯混元升级的过程也是众多国产大模型发展的缩影，各项大模型基础的能力犹如一片片砖瓦，今天垒一点，明天垒一点，最终搭建起来了大模型这座房子。

七个月过程中拉齐、中文超越GPT3.5，“中国速度”在大模型基建上再次体现。

大模型来了，框架怎么进化

前端体验到的大模型能力，都由底层的大模型框架作为支撑，框架能力的好坏，会直接决定整体训练和推理的速度、成本和效果。

腾讯混元大模型持续升级背后，离不开腾讯自研一站式机器学习平台Angel的支撑。追溯其形成的过程，总能看到混元大模型早期稀疏路径“小成本”、“高效率”的影子。

腾讯集团副总裁蒋杰提过，“从2020年开始，腾讯就一直在跟进和投入混元大模型相关的技术能力，最早起于400GB、用于支撑广告业务的稀疏大模型，而不是现在的稠密大模型。当时，这一模型使得GMV提升了大约13%，在这之后，腾讯对大模型的投入和积累逐渐增加。”

稀疏和稠密的两种路径优劣势十分清晰：稀疏型计算效率高、成本更低、易部署，更适用于对实时性要求较高的场景；稠密型表达能力强、理解能力强、准确性更高。

当时，广告、推荐、搜索都对计算效率有很高的要求，加之在实践中效果提升显著，都驱使腾讯选择了稀疏的训练路径，HunYuan-NLP 1T大模型正是在此基础上诞生。也因为当初稀疏路径的选择，腾讯混元大模型在一开始就十分注重资源、效率两项指标。

大模型来了以后，腾讯自研的AngelPTM训练框架和AngelHCF推理框架也迎来了升级，相比AI 1.0阶段，还要更快、更高效。

大模型训练过程中存在模型参数大，显存需求高；数据量大，算力需求高；训练周期长，稳定性需求高等困难。

针对这些困难，腾讯AngelPTM训练框架提供了分布式训练解决方案，具备高内存利用率和训练吞吐效率特性，腾讯官方表示，训练速度相比业界主流框架提升了1倍。

据康战辉介绍，AngelPTM训练框架包含了优化策略、并行策略、加速组件几部分。“我们利用4D并行，再加上显存、内存一体化的ZeROCache技术，实现了在千亿混元底座上进行训练，带来大幅度提升训练效率的同时，能够让模型训练更充分”，康战辉道。

优化策略核心在于去除冗余存储，通过ZeRO-Cache，可以让大模型在训练时只存储一份，并让CPU和GPU同时作为存储空间，来扩大存储可用空间；4D并行的核心则是保证数据集质量和提升训练效率，过程中，实现把数据、大模型进行了设备数量、模型部分、时间上的切分、打破，达到多并行任务同时运行。

我们可以把整个框架训练的过程，想象成模型工厂的建造过程。

工厂里原本的参数、数据都散在各个角落，并且还存在重复存放。首先，就要把空地打扫出来，通过合理规划，在一个统一的大仓库中规范存储，避免重复堆积，扩大了可建造空间。

第二步，要提高效率，AngelPTM像一个流水线管理员，合理安排显卡的任务执行顺序，减少等待时间，保持高效运转。此外，还要让CPU和GPU协作起来，CPU像仓库管理员，分配任务，GPU像工人，执行任务。

第三步，工厂里设置多条流水线，并配备了一些作业工具，让每个流水线并行高效运转起来，以此发挥出整体能力。

大模型训练出来后，压力就来到了推理这边。训练过程中锻炼出来的能力，需要用推理框架让大模型在具体的业务场景运行起来。

腾讯旗下有一众堪称国民级的应用，业务流量大、场景多、成本压力高、服务能力要求高等重重大山摆在了混元推理的过程中。

据康战辉透露，“混元大模型目前接入了180个业务场景，这比首次披露增长了3倍，其中有60多个业务是做精调。”

为了能在这些业务场景中跑起来，该推理框架，具备了从蒸馏、微调、压缩到模型加速的完整能力，支持多种模型并行，保证模型的最小化部署及最大化吞吐。这其中大致经历了把模型变小，加速推理、大批量推理和封装服务几个过程。

腾讯官方称，其推理速度相比业界主流框架FasterTransformer快了1.3倍。

业务场景，倒逼大模型能力迭代

“腾讯整体流量产品非常丰富，所以文生图能力的诉求非常强烈，比如广告怎么合成商品广告，游戏上怎么做一些背景和元素的生成，内容场景里怎么给小说配图以及云场景等等，非常多。腾讯业务对文生图这项能力的促成非常强烈”，芦清林道。

最初的腾讯混元大模型源于广告业务需求，新的文生图功能也是最早在广告场景中探索。以上共同指向了一个问题：业务需求，可以更好的倒逼大模型能力升级。

据一份4月份流出的腾讯混元大模型内部交流纪要显示，腾讯在大模型研发上六个BG（事业群）都有参与，其中TEG（技术工程事业群）在算法上更偏通用，其他BG更偏行业。换而言之，如今混元的大模型底座能力其实已经融入了腾讯各细分业务的行业数据、认知。

像腾讯这类公司的业务场景都十分成熟，这意味着评测方式、反馈、商业模式也很明确。

生成的广告图片效果好不好，不仅肉眼可分辨，还有广告主采纳率、投放转化率量化指标作为参考，这就导致，从业务场景出发来构建通用大模型能力从一开始就要追求效果，要求也非常高。比如在广告层面，覆盖了金融、教育、电商、旅游、游戏等行业，每个行业提出来的要求和需要都不一样。

芦清林现场回答光锥智能提问时解释，混元在训练文生图模型时，就会把各行各业的需求全部收集在一起，分析哪块是语义方面的问题，哪块是细节、数据等方面的数据，然后再集中去解决、优化，以这样的方式来促进大模型通用能力的提升。

久而久之，便会形成数据飞轮。

目前，腾讯内部的腾讯会议、企业微信、腾讯广告、腾讯客服、QQ浏览器、微信搜一搜等180个业务已经通过API接入，其中超过60个业务经过模型精调接入混元。

在腾讯会议场景中提供会控入口、会议总结、会议问答等功能；在腾讯文档中，提供文档创作、文档编辑、表格公式生成等功能；在腾讯广告场景中提供商品化理解、商品标签提取、广告推荐、智能客服等功能；在游戏场景，提供游戏智能助手、游戏NPC、剧本生成等功能。妥妥地的是，用大模型把应用都重新做一遍。

而在各种多样化的业务落地过程中，除了技术，需要有更综合的考量。

比如，模型参数大小的选择，就是一个首先需要考虑的问题。

虽然百亿参数的大模型在一些任务上有优势，但训练成本高、精调难度大，就会出现难以装进业务中的难题。

“大模大做，小模小做，是当前腾讯主要的思路。”康战辉告诉光锥智能，大的大模型以追求效果为导向，中小参数大模型追求成本和收益平衡。

“用什么模型，关键还要看场景。比如复杂任务的专业客服和助手，一定要有更大的模型，而广告行业又肯定要兼顾成本。所以，要结合业务场景出具灵活的解决方案，需要不断地根据业务流量和商业模式去调整混元的底座。”

本质上，这是一个成本、效果、商业化三者的平衡。

康战辉认为，还是要根据产品、业务的打法来决定。要先判断该产品处于什么阶段，如果技术、产品等方面还不成熟，那整体的成本就比较高，只能允许部分用户小范围的使用。基于这样的考虑，结合模型效果、商业模型、业务成本几个维度，混元再给出选择参考，做出成本预估。

幸福双城资讯网

蛋黄果小科技