撰文 | 王长胜
很明显,腾讯混元大模型姗姗来迟。但是,从“可用”、“可实践”的角度来看,混元却是独占鳌头。当其他大模型厂商还在比拼参数的时候,腾讯混元大模型早已转向“实用优先”。
正如今年5月马化腾在股东大会上所讲的:“我们不急于早早做完,把半成品拿出来展示。对于工业革命来讲,早一个月把电灯泡拿出来,在长的时间跨度上来看是不那么重要的。”
说这话,马化腾是有充分底气的。混元大模型的出现,正是为了解决业务的实际需求。腾讯很早就在广告场景中积累了大模型相关的技术,从2021年开始陆续推出千亿和万亿级别的大模型。在混元大模型正式亮相之前,微信、QQ、腾讯会议、腾讯文档等腾讯旗下的50多个应用场景都已经接入。
这就是为什么说混元是“从实践中来,到实践中去”。它不是为了研发大模型而研发大模型,而是在业务需求的驱动下,自然而然地从一个个小模型生长成一个通用大模型。
基于此,本文将试图讲清楚腾讯混元大模型的前世今生、来龙去脉。文章篇幅可能有点长,却都是独家内幕,看完之后,你就会明白为什么要做大模型,大模型有什么用,它是如何改变原有的工作方式、和业务流程的,而这也只是大模型万里长征的第一步。
混元的前世:从实践中来
大家都知道,腾讯拥有互联网行业内最广泛的业务和最丰富的应用场景,包括微信、QQ,以及QQ音乐、腾讯视频、腾讯会议、腾讯文档等等。在这些应用中,盈利方式有两种,一种是收会员费,另一种是通过广告变现,而广告是腾讯收入来源的大头。这也是中国互联网发展到今天,最广泛的、最大的、最通用的商业模式。
所以,广告业务线的效率提升将直接影响到一家公司的生存命脉。在广告领域有一句路人皆知的话:“我知道投放广告的钱有一半浪费了,但是我不知道是哪一半。”如何能让广告投放更精准,更有效,就成了广告人最迫切的需求。
提起腾讯广告,大家所熟知的是广点通,于2011年正式上线。在2014年,随着微信的高速成长,微信公众号广告也正式上线。但当时微信的广告业务尚归属在原团队中,也就是说,如果你是一个品牌商,去腾讯投广告,需要分别找到不同的广告部门去对接。
2018年9月30日,腾讯宣布了历史上第三次重大架构调整,原来分散在不同部门的商业化团队在组织架构上合并为“广告营销服务线”。今天回头看来,正是这个合并动作,促成了混元大模型的诞生。
蒋杰,腾讯集团副总裁,也是腾讯技术工程事业群数据平台部负责人,该部门提供整个腾讯集团底层技术通用能力的支持,其下面设有数个跟广告业务直接关联的中心,专门负责腾讯体系内广告技术的底层基建。
众所周知,广告的推荐涉及到海量的数据和算法,这是技术在实际业务层面发生效果的最佳的技术练兵场。
当用户打开微信朋友圈的那一瞬间,底层技术就要在毫秒级的时间内计算出一条最适合的广告推荐给最适合的用户。如何做到呢?
以一条口红广告为例,过去的投放逻辑是,广告主要明确提出投放群体,比如“一线城市”、“女性”、“年龄范围在20岁-30岁”,以及出价(愿意出多少钱买到这个用户的广告位)。
这是一套很复杂的流程,而且其中有个问题。为什么口红只能卖给女性用户,男性用户就不会买给家人吗?这是一个好问题。如何解决呢?
以始为终。沿着这个思路,腾讯开发了一套“围绕商品展开的推荐模型”,通过数据和算法,让机器自动挑选最合适的广告推荐给最合适的用户。事实证明,机器算法比人工设定标签更有效,ROI(转化率)明显提升。
与此同时,腾讯还做了另外一个动作。在930之后,虽然两个部门合二为一,但是两边的投放逻辑还是不太一样,所以,广告主还是需要提交两套不同的投放需求。于是,腾讯决定把微信广告和非微信广告的技术底层打通,广告主只需要在一个平台上表达在腾讯所有的投放诉求,剩下的交给“大模型”。
具有了推理和理解能力的大模型,不止可以做到更精准的推荐,还可以理解图片的创意和视频的创意,以及广告去重、安全审核等。
也就是说,在今年生成式AI爆发之前,腾讯大模型就早早已经实现了向多模态、跨模态的升级。混元大模型生成的广告素材图片,投放的实际效果比市面上其他图片生成大模型,比如公认最好的Mid Journey,素材得到广告主的采纳率更高。因为混元大模型是持续在业务中打磨发展而成,在哪些广告素材更可能吸引用户点击和转化上,有来自实践的更为深刻的理解。
是的,这个时候,围绕商品推荐的模型开始演变升级为大模型,只是这还是一个稀疏大模型,不是后来的稠密大模型。稀疏结构的大模型特点在于,具有非常大的容量,但只有模型用于给定的任务、样本或标记的某些部分被激活,好处在于,让千亿甚至万亿的模型运行起来更容易。
二者的区别,简单理解就是,稀疏大模型更擅长解决单一领域、单一任务的问题,而稠密大模型理论上能够解决更多领域、更多任务的问题。这与模型的参数、算法、数据都直接相关,在此不展开赘述。
随着广告投放系统问题的解决,腾讯其他应用也纷纷提出优化用户体验的需求,大模型从稀疏慢慢走向了稠密,最终,形成了混元大模型的雏形。这也是为什么在混元大模型发布的时候,可以看到它改造了腾讯的50多个应用。
以腾讯会议为例,基于混元大模型打造的AI小助手,只需要简单的自然语言指令,就能完成会议信息提取、内容分析等复杂任务,会后还能生成智能总结纪要。据实测,在指令理解、会中问答、会议摘要、会议待办项等多个方面,混元大模型均获得较高的用户采纳率。
在文档处理方面,混元大模型支持数十种文本创作场景,在腾讯文档推出的智能助手功能中已有应用。同时,混元还能够一键生成标准格式文本,精通数百种Excel公式,支持自然语言生成函数,并基于表格内容生成图表。
事实上,混元大模型不只是改造了这些应用,而且把这些应用场景更紧密地联系在一起。举个例子,广告主在微信朋友圈投放了一条添加企业微信的广告,用户添加后,混元可以继续在企业微信端为广告主和用户继续服务。比如,当企业微信的客服人员与用户交流的时候,遇到的一些话术的问题,混元大模型都可以提出更好、更合理的回复建议。
也就是说,混元正在变成一个无处不在的AI助手,不仅帮助广告主,也帮助用户,实现五感式服务,随时随地,随叫随到。
行文至此,大概说清楚了混元大模型为什么来,怎么来,以及能做什么的问题。这就是混元的前世。下面我们聊聊混元的今生。
混元的今生:到实践中去
9月7日,在2023腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。
正如前文所言,混元大模型在开放之前,已经在腾讯集团内部使用了好几年,而且效果颇佳。
这是混元大模型与其他行业大模型的不同之处。其他大模型厂商,更多是看到了大模型的风口,加入进来,自研出一套大模型,或者有厂商用开源大模型套个外壳也号称自研,实际上,国内真正纯自研的大模型也就这几个大厂,一个手数的出来。
这也是为什么很多厂商的大模型在场景中的应用依然有限的原因,它只能集中在容错率高、任务简单的休闲场景,很难真正的赋能给B端企业直接使用。
而腾讯混元大模型,则在诞生于实际业务之中,一开始就在算法层面进行了一系列自研创新,提高了模型的可靠性和成熟度。
“腾讯混元大模型从第一个token开始从零训练,掌握了从模型算法到机器学习框架,再到AI基础设施的全链路自研技术。”腾讯集团副总裁蒋杰说。
甫一开放,混元大模型就带着成熟的实操经验。如今,混元大模型将作为腾讯云MaaS服务的底座,客户不仅可以直接通过API调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。
实际上,在混元大模型发布之前,今年6月,腾讯就先行推出了覆盖10个行业的超过50个解决方案,可以理解为行业大模型,企业只需要在行业大模型上加入数据微调,即可得到一个自己专属的企业模型。
基于自身的业务场景去构造产品,打磨产品,最后对外开放给企业用户——这是腾讯一直以来的创新路径。这也是一条不同寻常的走向通用人工智能的腾讯路径。
很多厂商的大模型是先训练出一个大模型,然后在不断优化打磨到可商用的程度,而混元大模型由于是在实践中诞生的,它从一开始就瞄着“可用”、“可实践”下足了功夫。
针对大模型容易“胡言乱语”的问题,腾讯优化了预训练算法及策略,让混元大模型的幻觉相比主流开源大模型降低了30%至50%;通过强化学习的方法,让模型学会识别陷阱问题;通过位置编码优化,提高了超长文的处理效果和性能;提出思维链的新策略,让大模型能够像人一样结合实际的应用场景进行推理和决策。
正如腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生说的那样:“最务实的做法,还是回到每个企业自身的痛点,降本增效,用行业大模型去解决企业的问题。可能刚开始使用的版本只能解决问题的80%,但因为有很清晰的使用场景,用户的反馈能够形成反哺,让你不断打磨你的行业大模型,提升答题准确率。”
在移动互联网时代,烧钱圈用户、抢市场、促增长的竞争模式,已经不在适应AI时代的竞争法则。AI时代,企业将会迎来重塑商业模式、真正验证商业价值的时刻。
在一场为期十年甚至更长的马拉松中,必须塌下心来,扎根产业,不急于求成,以慢为快,打造一个繁荣的生态系统,这或许才是AI时代更务实、更有效、更可持续的商业解题方法。
这里插播一个小细节,腾讯的混元不是单独开的发布会,而是搭了腾讯生态大会的便车,这一点就很有意味了。根据腾讯生态大会上官方披露的数字,现在腾讯已经有超过11000家生态合作伙伴。而这些合作伙伴,正是混元大模型或者说腾讯未来的AI生态系统中最早一批种子。
只要有了肥沃的土壤、适宜的温度、充足的阳光,是种子总会发芽,长大,快一点还是慢一点,没关系。
这让我想起2022年12月马化腾在内部大会上说的那句话:“不要被人家奚落两句,说哎呀,你这个云是不是被华为给超过了?无所谓,我们不着急,千万不要上当。”