本期内容是海外独角兽的跨年特别策划。拾象科技 CEO 李广密和商业作者张小珺一起讨论了 2023 年全球大模型竞赛,以及接下来大模型格局会如何演进、需要解决的关键问题。
大模型不只是科技巨头的军备赛,还是人类关于未来黄金 10 年的一场千亿美金豪赌,去年底, ChatGPT 的出世不仅让“大模型”成为全球科技领域的关键词,也给所有人的工作与生活带来巨变。2023 年,所有模型玩家都在以 GPT-4 作为目标进行追赶,追齐 GPT-4 意味着有机会拿到决赛入场券,到 2024 年,在模型智能能力的持续迭代中,“多模态”会成为新的主流叙事。
AI-native 应用层面,除了 ChatGPT 和 Character.AI、Perplexity 之外还没有更多新的产品诞生,但这主要因为我们还处于模型发展早期,不能低估模型迭代的难度、高估应用爆发的速度。
拾象团队在过去一年持续追踪研究一线大模型公司、顶级 AI research lab 的动态,我们把模型智能能力的进化和成本的变化趋势总结为“新时代摩尔定律”:每 1-2 年模型水平就能提升一到两代,模型训练成本每 18个月就会降低至原来的1/4、推理成本每18个月降低至是原来的 1/10,未来模型推理成本做到今天 1% 这件事是非常可预期的。
01.
大模型:一场千亿美金豪赌
张小珺:你今年追踪 AI 非常的多,一直在给行业输送 AI 一手的洞见。能不能先聊聊你今年的状态?
李广密:不管是海外独角兽的公众号还是我个人的朋友圈,我们过去一年的时间几乎没有发过 AI 之外的内容。去年这个时候我们有一个挺关键的判断,这一轮的核心赛道只有一个,就是大模型本身,今天投大模型可能就和 10 年前投电商一样。
整个拾象团队相当长一段时间只关注三家公司:OpenAI、 Anthropic 还有 Google,我们团队在这三家公司的研究和追踪上投入了快 90% 的时间,我觉得是只有这几个公司有核心的 secret 。如果只算每人每天 3- 5 个小时人效,整个团队的投入也接近 1 万小时定律了。真正的聚焦带来的反馈也是很好的,从结果上来说,我们新一期旗舰基金竟然还超募了很多,很多 LP 主动找过来。我觉得团队和我自己也因为 AI 进入到一个加速成长的过程,今年大家都被 AI 点燃了,可能未来只有这一件事,其他的事可以做减法了。
张小珺:去年底 ChatGPT 诞生算是开启了大模型军备竞赛,全球人工智能也经历了狂奔的一年,在你的脑海里,这一年有哪些关键阶段、重要的分水岭?
李广密:闭上眼睛想,我觉得最重要的几个:
第一个,从 to C 流量端看,ChatGPT 发布以后占住了 chatbot 的心智,很快突破了百万用户、1 亿用户,现在 MAU 稳定在 2 个多亿、 做到了 10 多亿美元 ARR,这是很了不起的。
第二个是模型能力层面,3 月份发布的 GPT-4 是一个关键的分水岭。GPT-4 代表了一个 SOTA 最佳模型,谁能再复刻 GPT-4 就是关键节点,Anthropic 今年 7 月份发布了 Claude-2,内部几乎复刻了 GPT-4,Google 12 月份发布了 Gemini 1.0 Pro 版本和手机 Nano 版本, Pro 版本基本上就等于 GPT 3.5,对标 GPT-4 的 Ultra 下个月才能发布,也可以说 Google 追上了,但从时间线上还是能看出来区别, OpenAI 是在一年前做出的 GPT-4, Anthropic 是半年前做出来的,Google 是下个月才能真正推出 GPT-4,全球其他团队可能还需要 6- 12 个月才能做出来。
另一个是开源。Llama 2 和 Mistral-7B 是我觉得开源领域最佳的 2 个模型,Mistral 的团队之前也是 Llama 1 的核心成员。我其实一直不太看好开源模型的,但开源这个领域后面进步很快,所以也很值得期待。
第四个可能是多模态,我们已经看到 MidJourney 从 V1 到 V6 迭代过程中,每一个版本带来的图像生成效果都是快速提升的,到现在效果已经非常好,如果看视频生成, Runway、Pika,它们今天的效果和过去的视频生成也有了很大提升,我觉得这是一个很好的开端,我们可以预期明年视频生成的效果就会像今年图像生成的效果一样快速提升。另外,Google 的 Gemini 已经是一个多模态的模型,它是几个模态从头开始训练,这是和其他大模型最大的区别, 2024 年的叙事肯定是多模态,Google Gemini 就是打了一个新的开端。
还有一个很强烈的感受是硅谷大模型公司的融资基本上就是巨头定价来主导了,比如说 AWS 和 Google 又给了 Anthropic 60 亿美金,马斯克的 X.ai 可能也要融几十亿美金,钱是有限的、卡是有限的,在第二、第三梯队的模型公司现在就很难了。
这一年结束对大模型的质疑声音依然还很多,但硅谷最牛的公司、最聪明的人都选择了 all in,我觉得作为创业者和投资人就是应该积极拥抱新时代,怎么用好新的计算机和 power。
张小珺:总体来说,卷了这一年以后,全球大模型产业卷出了什么?
李广密:如果说具体的结果,我们可以看 OpenAI 一年做到 10 多亿美元的 ARR,明年可能是五六十亿美元的 ARR,它可能是历史上增长最快的公司。但整个市场上其他的大模型 native 的产品所有的 ARR 我们简单估算过加在一起是不到 10 亿美金的,不如 OpenAI 一家。流量上, ChatGPT 也占了整个 chatbot 流量的百分之七八十,集中度很高。从 DAU 角度看,到今天 DAU 稳定在 200 万以上的大模型 native 的产品我们只看到 ChatGPT 和 Chatacter.AI,企业级探索大模型的 use case 现在成功的还不多,可能只有微软和 Adobe 现在比较激进。
但另外一个层面,我觉得大模型今天还在早期,不用特别着急,我经常比喻大模型很像芯片,大家要等芯片的能力和成本再迭代 2-3代上面的消费电子才会慢慢的爆发,可能到明年这个时候我们就会觉得 GPT-4 特别傻、做不了太多事,但今年已经代表未来黄金十年的开端了。
张小珺:OpenAI、ChatGPT 这样一骑绝尘的表现能够说明什么?
李广密:用户对智能的渴望是很强的,我们今天在聊各种入口,但如果真的有一个极其聪明到你最强的同事的AI Copilot,我觉得大家就不再依赖现有的入口,如果 ChatGPT 未来某天的智能程度、可靠程度、反应速度可以直接接入到手机,全球的流量入口又会发生变化,因为所有人都是很渴望智能的。
张小珺:你提到硅谷大模型的融资现在已经是巨头定价和主导了,这背后的原因是什么?
李广密:因为需要的钱很多。硅谷 VC 几乎都错过了大模型的投资,也同样都错过了对 SpaceX 和 Tesla 的投资,这几件事都是典型的重投入、早期看不到商业模式、风险很大,不符合硅谷 VC 的典型投资偏好。大模型的投入可能跟 VC 这个产品是不匹配的,大模型应该是另外一个金融产品来支持的,我觉得买单方就是巨头。
巨头愿意买是因为巨头在抢新的入口。举一个最简单的例子, ChatGPT 和 Perplexity 代表的是问答引擎,Google 一直占住的是搜索,我经常比喻说问答引擎就像是直接点外卖,所有都做好了,Google search 就是我们去菜市场还要买菜,我们搜索出来的内容可能不能直接回答我们自己的问题,但 ChatGPT 和 Perpelexity 是“开箱即用”,用户体验是截然不同的。
也许今天我们还是不能完全信任 answer engine 的结果,但最终效果越来越好之后大家还是会相信的,比如 ChatGPT、Perplexity 这种问答形式有可能会把互联网的渗透率在大幅拉升很多,因为以前很多长尾问题是没有被解决的,但现在因为 AI 就可以解决了。就像每个人有手机一样,每个人都可以拍电影、拍短视频,就是技术刺激新的需求、消费。
张小珺:这种 AI 巨头主导的阵营,可以分成哪几个派别?
李广密:最领先的就是微软和 OpenAI,其次是亚马逊和 Google 支持的 Anthropic,第三个我觉得是 Google,它自成一派,Apple 跟 Tesla 是潜在的关键变量。
有三个大生意和大模型最相关,首先是芯片,英伟达在这一波就很激进,第二波是公有云,微软的云和亚马逊的云是两个是最大的,可能未来模型都是要跑在云上,所以云厂商拿未来每年营收的 3- 5 个点去投模型公司也很合理。第三个大生意是终端,手机和车,所以 Apple 和 Tesla 未来会是更关键的阵营。
Tesla 有 X.ai,X.ai 现在是晚了 6- 12 个月的,未来能不能追上很关键,这个概率是大于 50% 的,因为 X.ai 的人才质量很高,执行速度也很快。手机也是一个非常重要的端,明年 Apple 又会支持谁?如果手机的内存未来两年能提升 4- 5 倍,就可以在端侧推理,而不是云侧推理,AI 公司的成本结构也会发生很大变化,所以我觉得手机肯定还是会继续变强非常多。
张小珺:为什么没有提 Meta?
李广密:Meta 推出的 Llama 对整个开源的贡献非常大,我觉得开源模型有可能未来就等于 Meta。我觉得 Llama 的能力今天还是稍差于 GPT-3.5 ,而且 Llama 团队里面我不觉得有所谓的天才 researcher,人才质量比OpenAI 和 Anthropic 可能还是要落后一些,至于最强的模型要不要开源出来,我觉得这是一个很重要的问题。
但我觉得 Meta 不一定是大模型公司,它也许会是一个用 AI 做好自身业务的公司,甚至有可能 Google 也是这样的,有可能 Google 在大模型竞赛里面输了,但也有充分条件用好 AI 技术做好自己的产品。
张小珺:全球今年总计向大模型领域下注了多少,花了这么多钱,赌的到底是什么?
李广密:我们可以算一下头部模型公司花了多少,比如 OpenAI,今年买卡我们可以先估 30 亿美金,还不算人才和股票激励,那全球范围至少乘 5,那全球就是 150 亿美金。我觉得未来 OpenAI 训练模型可能未来还需要至少得200-300 亿美金, Google 也不能低于这个数,Anthropic 大概也需要 100-200 亿美金,所以我觉得未来几年,3-5 年至少要花 1000 亿美金赌下去。
到底赌的是什么?我们刚才聊到大模型今天还是一个实验科学阶段,就像我们对人脑的智能探索一样还不理解很多事情,其实今天我们看大模型为什么涌现出智能?也是没有答案的,今天可能就是一个探索发现的时刻,而且现在提升模型智能水平只有一个路径,就是 scaling law,包括 scaling law 为什么会起作用也只是基于经验的总结,大家并不知道为什么。所以其实现在还有很多无法判断的问题。
所以我觉得大模型是人类一个千亿美金的 bet,赌的是什么?可能有一个预期是,未来 5 年全球 GDP 会不会因为 AGI 翻倍?AGI 可能会对全球性的问题带来新的变量。
张小珺:你作为投资人在看移动互联网时代的产品和看现在这些公司和产品的时候有什么变化?
李广密:第一个点是要意识到大模型是最核心的,没有模型可能是没有所谓的 AI native 应用。未来所谓的 Super App 没有自己的模型是不是 work?目前还是个开放式的问题。
第二个点,智能是最关键的变量,过去的产品经验可能在今天是一种包袱,只是模型之上怼很多的功能、UI、 UX 有可能是徒劳的,更本质的是要理解模型的能力是什么。AI 的应用跟移动互联网的应用之间到底是会有什么大的区别今天还是比较模糊的,很难总结出来,最主要是今天的可参考的成功案例还是太少了,也就 ChatGPT,Character.AI, Perplexity 这几个,也许还得再等 1-2 代的模型,会有更多 native 的产品出来。我们年初低估了做到 GPT-4 的难度,高估了应用大爆发的速度。
02.
复现 GPT-4:大模型竞赛的关键门槛
张小珺:如果我们把复现 GPT-3.5 或者复现 GPT-4 作为进入半决赛和决赛的关键门槛,现在入围了半决赛和决赛的人有谁?
李广密:首先,复刻 GPT-4 比大家预期的是要难很多的。Google 举全公司之力搞了这一年也才勉强接近。我觉得今年首轮跑下来就决出前三名 OpenAI、Anthropic、Google。最期待的还是未来 6 个月内谁能再做出 GPT-4 的模型?我觉得可能有三家公司有潜力,Elon Musk 的 X.ai,Transformer 核心贡献者 Noam 创立的 Character.AI,另外,我们认为字节也很有机会,大模型的能力可能是随着算力分布而收敛的,大模型对信息的加工能力是比搜索和推荐要更强,这是在搜索和推荐之后信息分发可能最重要的一个核心赛道, Google 和头条不能错过,所以我觉得华人 researcher 们也许也可以好好考虑字节的机会。
另外,我觉得今天一线模型公司的核心只有一个,就是提升模型的 capability,现在还不是做产品和应用的时候, 并且 capability 只有一个北极星指标,就是推理能力,其次可能是重要的成本、可靠性、多模态等问题。
张小珺:这些成功复刻 GPT-4 的选手是怎么做到的?其中的关键变量是什么?
李广密:一方面大模型的人才壁垒非常高,大模型就是一群天才的科学家在用 GPU、data 和 power 去帮人类做科学发现,前段时间 Bezos 也表达了类似观点,全球范围真的对大模型能有实际大贡献的天才 researcher 可能就两三百个人,天才科学家的聚集效应是很强的,这种人和这种 research 文化其实是非常重要的,不是所有巨头都具备这样的条件。
第二个关键变量是数据。GPT-4 的短期壁垒是数据,尤其是 pre-training 和 post-training 阶段的数据,我觉得全球范围真正有 GP-4 数据 know-how 的只有两三百个人,而且几乎都在目前头部的三家模型公司,其他公司想搞清楚这件事至少得经过几百次、甚至几千次充足的实验,有很多研究探索性的问题要做,为了支持这些实验小几万张卡是一个必要条件。
而且只追 GPT-4 可能是没有太大意义的,因为 2024 年又开始了新一轮的竞赛,是决定长期格局最关键的一年,格局形成后其实是很难改变的。明年初 Anthropic Claude-3 和 GPT-4.5 也要发了, Google Gemini 也许明年六七月份会发,所以明年上半年就会把领先模型的能力再提升一个大的台阶,而且明年肯定是多模态叙事,如果那个时候才追上 GPT-4,肯定是不是第一梯队了,所以对追随者的挑战还是挺大的,所以可能今天就要考虑直接做下一代多模态模型。
另外还有训练成本的问题,如果 Claude-3 和 GPT-4.5 训练成本可能 2 到 3 亿美元,那再往后的 25、26 年,更下一代的模型训练成本至少可能是 10 亿美元,甚至说 30、50 亿美元,我觉得这是有这样一个预期的。
另外一个核心变量可能还是取决于大家是不是信仰 scaling law,以及能不能做到、能不能继续 scaling 下去,这件事可能是长期的唯一关键变量,目前我觉得极少数的科学家是很信的,比如说刚才提到 Character.AI 的 Noam, Anthropic 的 Dario,还有 OpenAI 的 Ilya,他们三个对 scaling law 的贡献也是最大的,同时也是信仰最强的。所以我自己经常感受这很像一个极少数科学家推动的 AI 登月时刻。如果说这个事很像登月,那其实是只有极少数的几家公司能参与登月竞赛的,如果真的要保持全球第一梯队,那么必要条件可能就是在未来有百亿美金的投入,百亿美元的训练成本可能是少不了的。
张小珺:现在 GPT-4的训练成本是多少?下一代模型的训练成本会是多少?你提到 GPU 成本会大幅下降,为什么训练成本会大幅提高?
李广密:这里可以做一个简单科普,训练成本其实是分两个部分,一部分是实验成本,一部分是最终大规模训练的成本。我们可以理解为一年当中其实是有 9 个月要做实验的,实验就是用小尺寸的模型做训练,做足训练之后,2-3 个月做一次大的训练,这一次就像一次大的火箭的发射,所以简单按时间来分,3/ 4 的成本用在做实验, 1/ 4 用在大的训练,也就是“发射”。
之前有一些关于 GPT-4 的成本分析,认为 GPT-4 用了 2.2 万张 A100、训练了 100 天,花了接近 8000 万美金,这个属于大规模训练的成本,就是我们说的“发射”,但模型最大的成本在前期实验,这个环节也要用到很多张卡,因为要做成百上千个实验探索数据配比、架构等等,足够的实验量和实错率,而且大模型的训练失败率是很高的,如果训练失败了,还得再从头再来。
还有一个值得科普是模型参数量在 700 亿是一个分界点, 700 亿以下能容忍非常多的错误,模型不会在训练过程中崩掉,700 亿参数以上每往上扩大一个级别,遇到的训练的难度是指数级提升的,模型越大越容易出错。
还有一个点其实是容易被大家忽视的,就是 OpenAI 的成本优化能力是很强的,比如说他们训练完 GPT-4 以后,因为具备了这个训练能力了,可以再重新训练一个 GPT-3.5、把 3.5 的 inference cost 降得非常低,我觉得主要是成本考虑,开发者大会它推出了 GPT-4 Turbo,那 Turbo 应该也是从头训练的,其实能力比 GPT-4 要强一些,但它的训练成本我估计已经降了四五倍,推理成本也降了将近 10 倍,当然定价可能没有充分体现出来。
为什么说下一代模型为什么要那么多的训练资源?比如现在共识是下一代就是多模态模型,各种模态的数据要从头 pre-train 进去,而不是用现在的 Flamingo 挂起来,视频数据的 pre-train 其实比文本的 token 整个更复杂,要高出一个量级的 GPU 资源。如果参数量又扩大一倍,又是一个多模态的模型,它需要的 GPU 资源可能是之前的 10-20 倍以上的,而且还包含了优化能力。
我觉得可能下一代模型实际算力可能是当年 GPT-4 的 16- 32 倍的提升,如果这样算下去,到 2025 年训练一个大的模型,我估计可能花费要 10- 30 亿美元之间,甚至不止,今天大家训练都是用 H100 了,H100 效果实际应该是 A100 的 1.5 到 2 倍之间,后面可能还有新的卡。
张小珺:复刻 GPT-4 是一条正确的路吗?如果达到了 GPT-4 的水平,但依然没有与之能相匹配的商业模式怎么办?
李广密:如果做不出来 GPT4 水平,那么下一代的模型有可能也做不出来,这两件事之间是有相关性的。GPT-4 倒不是一个明确非得要追求的目标,而是说它可能就是一个 millstone,比如资源的必要条件,人才的必要条件, research culture 的必要条件。GPT-4 是一个科学发现过程中的一个产物,不是一个充分条件,如果做不到这个水平,那后面的模型再下一代、再下一代可能就更难了。
张小珺:硅谷的大模型公司会因为还没有商业模式有“生存焦虑”吗?
李广密:硅谷的模型公司今天更像一个 research lab,除了 ChatGPT 意外爆红以外,模型公司商业模式还是不清楚的,即便硅谷的大模型公司独立 IPO 可能也很难,我觉得 80%、90% 概率还是被收购的,所以我觉得大模型公司还是要抱大腿,除非未来有全新的商业模式。
张小珺:早一点或晚一点追齐 GPT-4 的区别是什么?如果大部分人都能够达到 GPT-4 ,是不是也意味着其实达到 GPT-4 的门槛没有想象中那么高?最终模型公司形成的壁垒是什么呢?
李广密:首先我不太同意 GPT-4 门槛不太高的说法,至少未来 6- 12 个月复刻门槛还是很高的,从 GPT-3 到 GPT-3.5,很多公司有机会达到,但是从 GPT-3.5 到 GPT-4 难度会增加 5-10 倍,只有极少数公司能到。
时间早一点晚一点区别也很大,如果更早达到了 GPT-4也有机会更早到下一代模型,因为 GPT-4 生成的很多数据质量就很高,甚至比公开互联网上数据质量要高,这些生成的数据对训练下一代模型很有帮助,这个是存在飞轮效应的,更早达到 GPT-4 对吸引人才和资金进来也有帮助,到之后大家只会 bet on 前三家公司,后面梯队意义就不大了。
如果在 12 个月以后再追齐 GPT-4,那 OpenAI 或许已经到了多模态的 GPT-4.5,甚至能力更强的 GPT-5 在 2024 年是有机会看到的,那个时候就会发现 GPT-4 可能又不够了,尤其是成本降下来之后这件事会更明显,所以模型训练是一件很残酷的事情。
模型公司的壁垒很像台积电或者 SpaceX,首先肯定有很强的先发效应和规模效应的,但目前是没有看到像搜索和推荐一样很强的互联网语境里面上喜欢的网络相应数据飞轮这些东西我觉得是看不到的,但未来靠什么维持长期的壁垒?我觉得今天还不知道能不能像互联网范式一样有网络效应,有数据飞轮。
我觉得还有一个现实的壁垒,就是全球第一梯队的模型,如果没有 100 亿美金的储备、而且有机会转化成 GPU,是没有办法待在全球第一梯队的,这是一个硬标准。另外我们看 OpenAI 的壁垒,大众从心智上, chatbot 就等于 ChatGPT, OpenAI 等于 AGI,用户和开发者目前首选是 GPT,还是有很强的心智和入口效应的。但是OpenAI 也有缺点,他今天依然还没有数据飞轮,OpenAI可能也不一定是一个以用户和客户为导向的公司,它是一个 AGI 为导向的公司。所以有可能其他公司也是有机会的。
张小珺:你也经历过上一个移动互联网的时代,你觉得AI 范式、大模型的范式和上一个时代有什么不同?
李广密:互联网是讲究网络效应、数据飞轮、规模效应这些,但大模型和 AI 今天好像还看不到这些效应,起码 ChatGPT 是看不到网络效应和数据飞轮的,它只知道一些用户 query 的分布,能更好的指导训练哪些数据重要,哪些不重要,然后再 distill 去做一些小模型,满足头部的 query。我觉得今天 ChatGPT 可能更像一个消费品,微软 Copilot 可能占住了 Copilot 的心智, Character.AI 占住了 role play 这个性质,还不像是那种数据飞轮网效应很强。
复盘移动互联网可能最核心的是两个,首先是全球多出了四五十亿的用户,然后第二手机上能采集更多的数据了,你可以做机器学习和推荐。所以其实手机的电商的匹配率是比 PC 电商的匹配率提升了一个数量级的。也可以说移动互联网时代没有做机器学习和推荐的都没跑出来。我觉得模型这里面很隐形的一个核心竞争力,可能是成本,如果能够把成本做得足够低、模型能力也不错,就会是极强的核心竞争力,像芯片。
所以我觉得成本是一个隐形的竞争力,被大家忽视了很多,所以未来怎么跑出来?数据效应和成本上的规模优势我觉得可能是挺重要的,取胜关键。嗯,我觉得 OKR 身上也是看到了一定的规模效应的,就是非常像芯片,就是模型能力每一两年提升一大代,过程中解锁应用,然后每一两年每一两代模型也能把成本降低非常多,这就让后面的追随公司可能再过两代就追不动了。
张小珺:开源会不会冲击到闭源模型的生态?最终开源和闭源之间能达到什么样的格局状态?
李广密:首先我觉得开源模型是追不上闭源模型的,而且差距肯定会越来越大,这个还是回到大模型很像芯片或者 Space X,因为大模型它不是一个传统意义的软件开源,模型不可编码,不可解释,大家没办法一起做贡献,包括 GPU 要在单一一个集训练起来训练才更高效。
但开源模型本身的价值很大,开源模型的使命不是做最聪明的模型,而是承接先进模型溢出的很多能力,做民主化。因为未来很多用户和企业的需求是分层的,可能有相当大比例的需求是通过一定能力的模型就可以覆盖的,很多企业和大规模的用户优先考虑的是成本问题,这部分是开源的优势。
开源模型在 2024 年追齐 GPT-4 还是挺挑战的,比如 Llama 团队的人才密度可能还不够,很多 research 层面问题可能还没搞清楚,但我们也不能低估技术开源和技术扩散的力量。
另外我觉得大模型覆盖小模型是必然的,大模型是小模型的生成器,比如 OpenAI 训模型的能力很强,它可以优先训一个大模型,再来训小模型的能力也很强,比如 Mistral-7B 是 7B 的 SOTA 模型,但也有可能会被 OpenAI 顺手推出的某个小模型碾压。
下一个开源模型重要的方向是端侧,端侧意味着很多推理成本可以放到端侧,会让 AI 公司的成本结构发生很大的变化,很期待明年苹果手机能在内存上有一些大的变化。
如果说长期格局,我觉得有两种可能,一个是大模型公司向下覆盖,类似于 SpaceX 去做了波音和空客的市场,另外一个可能是因为需求分层所以产品也分层,这也是一个开放式问题。
张小珺:我们刚才也聊到了很多明星公司和产品,你觉得这一波创业者他们有什么共性?
李广密:从模型公司来看,一个模型公司最重要的是至少有一个天才的科学家,OpenAI 有 Ilya,还有好几个类似Ilya 一样的人,Anthropic 有 Dario,Google 出来做 Ideogram 团队的 CTO Jonathan Ho 对 diffusion 贡献很大,Pika Labs 的 CTO chenlin 也是 diffusion 方向上很天才的 researcher。上半场可能不一定是 CEO,但科学家一定是最重要的,以及团队的科学家文化,能够持续不断的探索、做实验是最重要的,下半场有可能是商业和应用。
03.
2024:决定大模型格局的一年
张小珺:你觉得硅谷这一波大模型的格局阵营会在什么时候稳定下来?
李广密:2024 年可能基本上会决定大概的格局。窗口就是未来 12 个月,如果未来 12 个月追不上去,后面再翻转其实是很难了。模型竞争很残酷,很像造芯片或者做 SpaceX,最理想化的格局是很可能只剩一家,最领先的模型又最便宜,没有理由用第二家,但因为有抗衡微软跟 OpenAI 联盟的阵营在,所以我觉得有不同的阵营,这样推演下来可能大概率是 2-3 家。
张小珺:GPT 迭代到什么时候就能算够了?会一直迭代下去吗?GPT-5 大概什么时候能达到?
李广密:我觉得 2024 年应该能看到 GPT-5。模型迭代是停不下来的,而且我们从思路上来讲,也不应该把模型训练当做 capx 成本,而是把它当做研发 R&D 投入,人类对智能的追求是停不下来的,唯一的情况可能是这个技术路线遇到瓶颈,或者 GPU 不够用了、能源短缺这样的外部不可抗力。
张小珺:你觉得往未来看的话,发展应该关注的有哪些核心的要素?
李广密:大模型再往后就关注两条主线,我们自己内部总结为“新时代摩尔定律”。
第一条主线就是智能能力的进化,主要关注推理能力。未来参数量数据 GPU 我觉得能持续 scale 很多年,每 1-2 年模型水平就能提升一到两代,每提升一部分可能就会解锁一些新的应用,回过头来再看 GPT-4,今天可能做的事情还是有限的,还在早期一段,而且你可能也没那么放心。就像是如果 GPT 能接到手机 Siri 了,我觉得那个时候是一个巨大的转折点。我觉得你就关注未来模型能力提升的过程当中,你可以画一条线,每提升到多少分,那可能解锁多少的应用,我觉得是有可能的。
另外一条非常核心被大家忽视的就是模型的成本,成本会是模型公司非常重要的隐形竞争力,其实模型训练的成本在过去 18 个月已经降了 4- 5 倍,模型推理的成本在过去 18 个月应该降了快 10 倍,而且我觉得在未来成本还可以再优化 2-3 轮,未来模型推理成本做到今天 1% 这件事是非常可预期的。
这两条主线就会决定 AI-native 应用大爆发的幅度,一方面是智能能力不断升级,每到一个点上可能某些应用出来了,这就像手机有了 Sensor,有网络带宽增加了,移动支付、短视频相继出来了,我觉得这是一个能力,技术能力本身的迭代过程中会出现很多。第二个就是成本,所以我就觉得 AI native 应用今天可能还没到大爆发的时候,如果说再卷个两代也许可以。
张小珺:多模态和 Agent 会怎么进一步发展?
李广密:多模态肯定是明年各家大模型公司的重点,甚至 2024 年的核心叙事就是多模态。Google Gemini 已经是一个可以做多模态理解的模型了,OpenAI、Anthropic、Charactar.AI 明年肯定也会加入,这些产品加了多模态能力短期是理解和生成两个方向,但长期我觉得都是一个统一的模型输入可以是多模态的输出,生成也是多模态的。
路线上,最近很火的视频生成主流都是在 diffusion model 图片生成上加上时间维度,生成几秒动画,如果想做得更复杂,肯定是需要技术突破的,比如 diffusion 和 transformer 不是不兼容的,就可以用 diffusion 的方法结合 Transformer 这些架构去训模型,transformer 最大的优势是容易 scale up,能否和语言模型一样持续把模型做大很关键。
从追求智能的角度,多模态领域也是非常值得重点投入做的,比如 MidJourney 的效果已经很好了,但它生成的图片真的智能吗?如果让模型帮我们生成一个有逻辑的 PPT、生成一个有逻辑的连环画,需要的模型到底是一个单一模态的还是综合模态?我觉得综合模态有很强的语言理解能力和逻辑能力,有可能它生成的图和视频是更聪明的,就是你是需要一个纯粹只有更美的,还是需要一个聪明的?但又美又聪明的肯定是最好的。多模态模型训练难度其实非常大,需要的 GPU 也更多,所以我觉得明年的 GPU 肯定还是非常紧缺的。
还有一个有意思的就是训练数据,大家都觉得 YouTube上数据量很大但其实这个数据是很难用到模型训练上,因为视频的信息密度和语言比不够稠密,而且视频的 tokenizer 其实相当关键、也很难,怎么能高效地提取出来视频的关键信息,同时在生成的时候又还原一些信息,这里面还是有很多技术要做的。
Agent 的概念被炒得很火,但今天我们都很难说出来说出来一个标杆产品。Agent 大爆发最核心还是底层模型的推理能力有提升,如果现在推理的准确性是 90%,但某个任务要做 10 步推理,这个准确率实际就降到 30% - 50% 了,可靠性就非常低,所以 reasoning 能力是非常重要的,还有推理速度也要提升。Agent 肯定是长期很重要的,但是第一是取决于模型能力,第二是这个时间点很重要,这可能是应用开发者未来要好好想的机会。
张小珺:站在你的角度会对 2024 年、 2025 年的大模型战局做哪些预测?
李广密:应用大爆发,我觉得需要模型再卷 1- 2 代,卷到 GPT-5的时候,大概到明年底,应用大爆发我觉得是有一定可能的。总体上应用方向还是挺难预测的,乔布斯当年也很难预测 TikTok。我觉得更多的应该关注技术升级刺激的新需求,比如短视频,就是手机技术和网络带宽技术刺激出来的增量的需求,我觉得格局也挺难准确预测的,影响因素很多,X.ai 和 ByteDance 有可能是黑马,但对巨头的影响我觉得可能会很大。
还有一个就是明年数据中心的用电肯定会提升非常多,有可能今天可能数据中心的用电量占人类总能源的 2% - 3%,未来涨到 10% - 20% 是可预见性也蛮高的,所以走到最后可能又是能源的竞争。
张小珺:垂直模型的空间有多大?
李广密:有可能不存在垂直模型。因为一个领域它可能没有足够的训练的 token 量来支持训练一个垂直的模型,因为模型要满足 scaling law,需要的数据是无限多的。我觉得未来有可能就是通用的模型,它变成一个非常厉害的推理引擎,这个推进引擎再渗透到各行各业当中,就像搜索一样, Google 做了通用搜索,但视频搜索也做得很好,虽然 Google 没有做电商,但很多电商的流量很多都是通过 Google 来分发的。
我觉得如果一个行业的进入壁垒很高,那有可能会存在垂直的应用场景解决方案公司,但不存在垂直的 foundation model 公司,模型未来可能还是一个通用的技术。
张小珺:关于大模型有什么坏的预期?
李广密:有可能 scaling law 到 2026 年、2027 年就失效了,这件事是有一定概率会发生的。或者说未来参数量到几十个 trillion 的体量后,再往上提升的效果就不大了,但起码今天我们还没有看到、也没摸到 Transformer 架构的天花板,在没有摸到之前,我们就是要积极拥抱,相信它还有路可以走,而且目前还没有看到其他路径比 Transformer 的训练和智能效率更高,可能有的其他的架构是用小量的数据可以有更好的训练效果,但 sacle up 的能力很差。目前 Transformer 和 scaling law 是走向 AGI 最有可能的路径,还没有第二个其他路径。
张小珺:说三条你觉得今年最大的噪音?
李广密:第一个是大家把复刻 GPT-4 想的太简单了,但其实相当难。第二个噪音就是所有人都因为 ChatGPT 和 Character.AI 去做一个 chat 产品,但是长期来看这两个产品形态一定对吗?这两家公司是模型公司不是应用公司,但还会有更多的更重要的产品形态大家还没探索出来。第三个噪音是大家 YY 、推演太多了,但很多不是 facts。
张小珺:OpenAI 刚经历了政变以及 Sam Altman 的回归,你怎么看这起事件,它对于大模型的产业意味着什么?
李广密:如果我是 OpenAI 的员工上,我肯定也是跟着 Sam,因为对于员工来说很多激励都是 OpenAI 的 shares 、奋斗了好几年的股票只跟 Sam 有关, 如果 Sam 不在,那努力了几年的股票就黄了,OpenAI 和微软的合作也是 Sam 来主导的,微软 CTO Kevin Scott 也是赌上职业生涯力挺 Sam,这是一个利益的问题。
目前 OpenAI 是没有人才流失的,我觉得这相当难得,甚至大家因为这件事更团结了。我比较好奇 Ilya 后面会怎么样?外界认为 Ilya 肯定会继续留在 OpenAI,因为他是一个很值得尊敬的优秀科学家,如果离开对于 OpenAI 还是很大的损失。
还有一个有意思的事情是 Sam 跟乔布斯和马斯克好像不太像一类人,乔布斯和马斯克在硅谷几乎没有朋友,但 Sam 在硅谷所有人都是朋友,甚至他去国会问询的时候,跟国会的议员都是朋友。所以我感觉 Sam 更像是一个政客,如果 AGI 真的实现了,加上 Sam 之前就在做的 Worldcoin,Sam 会是一个“新形态的总统”吗?
张小珺:你对于这个产业现在最想知道的一个问题是什么?
李广密:大模型 native 产品怎么像搜索和推荐一样做出来数据飞轮,甚至说未来有网络效应?这是需要一个类似乔布斯一样的天才产品经理来设计的。我觉得大模型就是新的计算机,如何把这个计算机和上面的生态设计好需要很综合的能力。还有一个就是 Transformer 等于 AGI 这件事可能不一定对,只是说 Transformer 是最接近 AGI 的一条技术路径,但因为 Transformer 本质还是一个统计概率模型,通过预测下一个 token 这种方式是不是会有自己的瓶颈?这个问题目前也没有答案,只有走下去才知道。
我还有一个比较好奇的问题就是如果 AGI 真的实现了,对地缘政治会有什么影响?比如大模型是融合了多个语言,同声传译每个人都触手可及的时候,会不会带来新的文化融合? 再比如 AI 变强了之后会不会有新的消费终端?最近大家谈论很多的 AI Pin 也很酷,它可以随时随地 access 到最强的模型,变成了 ChatGPT 的一个分发渠道,而且它还可以实时的帮我采集很多context,比如说今天我们俩在这聊天,就可以实时整理成一个会议笔记了。
Speak:用LLM重塑语言学习,再造一个Duolingo?
Mistral AI:开源不是威胁,模型变小才能催生Agents
LLM-first IDE:Code Agents 超级入口,软件开发的“Excel 时刻”
Filming Less:AI时代的视频剪辑产品淘汰赛
专访Pika Labs创始人:探索视频生成的GPT时刻