最近关于百度文心大模型4.0的消息一直不断,小道消息跟GPT-4发布前媒体的报道可以说只多不少。不管是发布时间、模型的参数量,还是成本,都被爆出不少猛料。
其中,最值得关注的是模型推理成本的增加,因为这直接关系到大模型厂商为用户提供生成内容服务时所需要投入的资源。据爆料,文心大模型4.0的推理成本相比文心大模型3.5增加很多,有传闻是8-10倍,也有说法是至少翻了10倍。
不管哪种说法更准确,文心大模型4.0推理成本的激增已经是板上钉钉。
早前,据华尔街日报爆料:微软用户量高达150万的AI编程工具GitHub Copilot,平均每个月在每个用户身上都要倒贴20美元,最高能达80美元。也就是说,微软自做出Copilot以来,光是一个月在它上面亏损就高达3000万美元,一年下来亏损直接过亿。要知道,Copilot也不是能白嫖的,会员每月还得交10美元“使用费”。
有大模型行业专家透露,大模型的推理成本跟三个因素相关:模型的网络结构和参数规模、推理部署方式、芯片和集群架构。
从已经爆出来的信息看,文心大模型4.0的参数规模要大于目前所有公开发布参数的大语言模型,预计可能突破万亿级别。换句话说,文心4.0的神经网络结构将变得更复杂、参数规模更大,这必然带来更大的计算量,推理成本增加也就顺理成章。
推理部署一直是百度的强项,尤其是在自家框架飞桨的支持下,并行推理、量化推理和变长优化等等都是飞桨在大模型推理上很好用的工具。在模型参数量变大的情况下,不知道通过飞桨和文心的联合优化能不能找补回来一点。
最后就是芯片和集群了,使用什么样的芯片型号,用多大的规模和集群架构进行推理都会影响大模型的推理成本。以GPT-4为例,据爆料,GPT-4推理运行在由 128 个 GPU 组成的集群上。在不同地点的多个数据中心存在多个这样的集群。文心大模型4.0在这方面,不知是否也遇到了挑战。
虽然大模型领域的“摩尔定律”(Scaling Laws)已经开始发挥作用,随着未来能源和计算成本快速下降,更强大的AI能力将会出现。
但现实是,随着大语言模型的不断升级迭代,参数量突破万亿、模型能力越来越强、用户使用量激增,推理成本都是大模型厂商需要持续优化的地方。
现在,在等待计算成本真正降下来之前,大模型玩家们或许要思考下费用的问题了。