以ChatGPT和Claude为代表的面向普通用户的生成式AI都面临一个类似的问题:它足够智能,但仍然不好用。
这个问题直白,却是一个相当终极的问题。大模型在一次次整体性的预训练中瞬间被灌入新的知识,但每两次预训练之间,限于训练成本等因素,总有一段不短的时间间隔。在这段时间里,新知识就变旧了。
于是虽然这些出色的大语言模型有极强的知识结构化能力,但对于更即时性的问题,以及大量的长尾知识,它们仍然一筹莫展。
持续进行预训练是大模型未来的一个进化方向,一个更大参数量级的模型在想象中可以更有效率的触及到长尾知识。但这两者似乎天然存在着成本与规模之间的矛盾。
不考虑成本,硅谷的工程师们已经在讨论怎么把1000万颗GPU联在一块做模型架构了。但这在目前仍然不是一条现实道路。
当下GPT-4的训练规模是2万颗,而要凑足1000万颗GPU,英伟达需要心无旁骛的苦干10年。
王小川在6月中旬Baichuan-7B发布的隔日去了美国,得知了“1000万颗GPU相连“的畅想,可能也更明确了百川智能在国内的前景。
大模型中的长尾知识与即时性,现阶段反而是看起来已经陈旧的传统搜索的机会。
重新出山的王小川一直在努力定义自己做大模型的正当性。他频繁强调自己和百川的搜索基因,并且在不同场合多次提到同一个故事:
“很多人说我特别适合做大模型,(但)我做了20年搜索,从来没一个人说过我特别适合做搜索。”
在王小川看来,搜索裹挟在移动互联网的大背景下,一刻慢处处慢,何况是和百度之间4年的差距。但来到大模型的战场,突然间过往皆为序章。搜索与大语言模型在技术有不少重叠处,但相比搜索,大模型更吸引人,也处处是新的。
从7月发布Baichuan-13B-Chat,短短一个月时间Baichuan-13B-Chat在Hugging Face上已经有了超过百万的下载量。而从4月公司名字官宣,到两款开源大模型的发布,四个月内百川智能已经在一些场合与智谱AI、MiniMax这些在大模型领域积累了超过两年的公司同样受人瞩目。
“现在103人了”,王小川透露,“差不多一天招一个人的速度。”
这是百川智能现在的规模。
在百川智能目前超过百人的团队里,有超过30%的人来自搜狗,这个王小川的旧事业。这个团队中最新加入的是洪涛,这位原来搜狗的首席营销官在未来将会负责百川智能的商业化业务。他在自己的朋友圈公布了这个消息,也预示百川智能的商业化即将开始。
百川智能在8月8日发布的第三个大模型似乎也在印证这一点。在7B和13B两个开源大模型后,百川智能发布Baichuan-53B,后者在参数量上相比之前大了数倍,并且这次的Baichuan-53B是一个闭源大模型。
在技术迭代上,Baichuan-53B开始“回归”搜索。
这里的“搜索”或许用“检索增强”来定义更加准确,简单来说就是给大模型外接一个通往互联网世界的路径,在接收到超出预训练范围内的提问时,模型会接入搜索引擎或知识库来进行具体的搜索,寻找答案。
2023年年初Google在AI顶级会议ICML2023发表的论文《Large Language Models Struggle to Learn Long-Tail Knowledge》曾对检索增强大语言模型有过系统的论述。
研究证明了大语言模型回答问题的能力与预训练期间看到的与该问题相关的文档数量之间有很强的依赖性。当模型变大或者见到相关问题越多的情况下,模型回答问题的能力越强。但当一个问题如果只在预训练阶段出现过10次以内,大语言模型回答正确的概率趋近于零——这点无论在Bloom或者GPT-3身上表现都相似。
但改进方法中,增加收集数据的规模或丰富程度对结果的影响微弱,而如果要扩大模型参数,Google团队的预测是一个千万亿参数级别的Bloom模型才能达到人类大脑对于长尾问题的准确率。相对来说,增加一个辅助检索模块是更有前景的方式。
最新鲜的例子就是ChatGPT Plugins。但由于OpenAI本身跟微软是两个独立的实体,搜索对于OpenAI来说“相当于一个黑盒”。
王小川表示相比其他大模型的检索增强,“(Baichuan-53B中)搜索跟模型的结合从非常底层的地方就开始去融合了 ”。他给百川智能的检索增强下了一个“搜索增强”的定义。
Baichuan-53B中的搜索增强系统融合了包括指令意图理解、智能搜索和结果增强等关键组件的多个模块。
在指令意图理解阶段, 首先指令任务被细化为16个独立类别,分别以Prompt增强技术——即通过构造特定的输入提示来引导模型生成期望的输出——进行了个性化的设计和优化;而对于超参数的设定对模型在训练和生成过程中的性能影响,动态超参数调整技术,baichuan-53B采用了动态超参数调整技术来根据任务类型的特性自动调整和优化超参数。
在搜索结果环节,Baichuan-53B中包含一个搜索结果相关性模型,该模型会对从搜索内容和知识库中获取的信息进行相关性评分。 该相关性模型也可以作为奖励模型,用于在强化学习训练阶段进一步优化意图理解模型,提高其对人类指令的对齐度,并更高效地调用搜索引擎;RLHF技术也将用于搜索结果的训练和优化,使得回答结果更准确并且人性化。
但在核心的“如何辨别这个问题是否需要调用搜索引擎或知识库”的决策上,百川智能称其“采用了一种灵活的策略”来生成精确响应,并未透露太多技术细节。对于接入的是哪一家搜索引擎,王小川表示目前还不便公开。
王小川表示,模型尺寸变大导致部署成本增加,是Baichuan-53B决定转向闭源的原因。但这个闭源的时间点仍然显得敏感。
此前Baichuan-7B以及Baichuan-13B曾经被质疑有C-eval测试集泄漏的问题,而有开发者表示Baichuan系列大模型的架构与Llama极度相似。等到开源的Llama 2在7月下旬推出,时间点在Baichuan-13B之后。相比LLaMA,花了四个月迭代出的LLaMA 2在预训练模型架构上几乎没有变化。
LLaMA在模型架构本身的优化上看起来开始停滞,这是否是形态可能也十分接近LLaMA的Baichuan-53B不再需要开源的原因?
对于这个问题,王小川表示LLaMA2比LLaMA1所新增的9个技术创新点基本都在Transformer框架层面,其中有6个在在百川自己研发的模型里已经做到了。“剩下两个没想到,有一个试完觉得不太行”。
而对于模型架构靠近LLaMA,王小川表示是出于生态兼容的考虑。
“开源之后,生态会围绕LLaMA去构建,在国外有很多开源项目是跟着LLaMA去推动的,(这也是)我们的结构为什么跟LLaMA更加接近。”
对于王小川和百川智能来说,搜索与大模型的融合将成为未来百川系列大模型稳定的亮点,Baichuan-53B的API也会在下个月开放。而按照设想,在这个50B的大模型发布后,百川智能将在Q4发布一个175B的的千亿大模型。除此之外,王小川透露,百川智能面向C端的“超级应用”也已经开始部署,并且不只一款。
一切都在紧凑的推进。而首先,“年底做出中国最好的大模型”这句话的兑现时刻已在眼前。