OpenAI的秘密武器：八个谷歌大神如何引爆AI革命

▲2017年，谷歌曾经的八名工程师发表的论文《Attention Is All You Need》掀起了一场人工智能革命，至今仍是业界传奇。ChatGPT、图形生成器Dall-E和Midjourney等人工智能模型都是依托于它而创造的。

文/马杰克

2017年的春天，来自谷歌的八名工程师——他们自称“变形金刚”团队，向一个著名的人工智能会议投稿了一篇论文：名为《Attention Is All You Need》（译：注意力是你需要的一切）。他们本来只是想证明自己有点牛逼，却没有预料到，这篇论文即将掀起一场人工智能革命。甚至7年后的今天，它仍被视为AI 领域的传奇之作。

（论文网址：

https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf）

这篇论文提出了一种全新的架构，它以一种称为神经网络的人工智能为基础，并将其转变为另一种东西：一个数字系统，其输出如同外星智能的产物一般强大。这种架构被称为变形金刚，成为后来所有那些令人惊叹的人工智能产品的秘密武器，包括ChatGPT和图形生成器如Dall-E和Midjourney等。

这篇论文的每个参与者，都在真正的团队努力中留下了自己独特的印记。当他们匆忙论文时，决定“破坏”排名贡献者的惯例。他们在每个名字后面加了一个星号，并在脚注中写道：“贡献相等”，它写道。“名单顺序是随机的。”

▲论文的开头按随机顺序列出了八位工程师的姓名和在谷歌的部门。

现在，全世界仍然有数百万人正在以某种形式使用“变形金刚”这种架构，包括它的八位作者。可惜的是，这八位作者随后都离开了谷歌，开创了自己的事业。而谷歌也遗憾地没能率先开发出ChatGPT这样的大语言模型。否则，今天的AI版图可能会被改写。

八位工程师分别为：

▲雅各布·乌什科雷特，德裔美国人，现为 INCEPTIVE 创始人兼CEO，曾任变形金刚团队的负责人，“变形金刚”这个名字也是他取的。

▲伊利亚·波洛苏金，乌克兰人，现为 NEAR 联合创始人。

▲阿希什·瓦斯瓦尼，印度人，现为 ESSENTIAL AI 联合创始人和CEO。

▲尼基·帕马尔，印度人，团队中唯一的女性。现为 ESSENTIAL AI 联合创始人。

▲利昂·琼斯，英国威尔士人。现为 SAKANA AI 联合创始人。

▲卢卡斯·凯撒，波兰人，联合Open AI 研究员。

▲艾丹·戈麦斯，加拿大人，现为 COHERE 联合创始人兼CEO

▲诺姆·沙齐尔，美国人，CHARACTER AI 联合创始人兼CEO。

最近，美国知名科技媒体《wired》采访了这八位大神，下面是他们如何引爆人工智能革命的故事。

雅各布·乌什科雷特父亲是著名计算语言学家汉斯·乌什科雷特——他来自东德，1960年代末，还是一名高中学生的汉斯，因抗议苏联入侵捷克斯洛伐克，而被监禁了15个月。获释后，他逃到了西德，并在柏林学习了计算机和语言学。汉斯后来去了美国，并在卡尔弗顿加州门洛帕克的一个人工智能实验室找到了工作，期间雅各布出生了。他们一家最终回到了德国，雅各布在那里上大学。

但雅各布并没有打算专注于语言，但当他开始攻读研究生学位时，他在谷歌位于加州山景城办公室实习，在那里他加入了公司的翻译小组。后来他放弃了攻读博士学位的计划，并于2012年加入了谷歌的一个团队，该团队正在开发一种可以在搜索页面上直接回答用户问题而不将他们转移到其他网站的系统。彼时，苹果刚刚宣布了Siri，这款虚拟助手承诺能在随意对话中提供一次性答案，而谷歌高层嗅到了巨大的竞争威胁：Siri可能会吞噬他们的搜索流量，于是他们开始更加关注乌什科雷特的新团队。

“这其实是一种虚假的恐慌。”乌什科雷特说道，他认为Siri从未真正威胁到谷歌。但他也乐于借此机会深入研究能够与人类进行某种对话的系统。当时，曾经是学术上一潭死水的循环神经网络，突然开始超越其他人工智能工程方法。这些网络由许多层组成，信息在这些层中传递和重新传递以识别最佳响应。

神经网络在图像识别等领域取得了巨大的胜利，使得人工智能的复兴突然开始。谷歌于是疯狂地重新安排其员工队伍以采用这些技术。公司希望能够推出能够产生类似人类响应的系统——自动完成电子邮件中的句子或创建相对简单的客户服务聊天机器人。

但是循环神经网络遇到了一个巨大的障碍——它很难解析更长的文本块。例如，以“Joe是一名棒球运动员，吃过一顿美味的早餐后，他去了公园，并击中了两个球”这样的段落为例。要理解“两个球”，语言模型必须记住关于棒球的部分。用人类的话来说，它必须保持注意力。接受的修正方法是称为“长短期记忆”（LSTM）的东西，这是一种创新，使语言模型能够处理更大更复杂的文本序列。但计算机仍然严格按照顺序处理逐字逐句地处理这些序列，并且错过了可能在段落后期出现的上下文线索。“我们所应用的方法基本上就是一种应急措施，”乌什科雷特说，“我们无法真正实现规模化运作所需的正确方法。”

大约在2014年，乌什科雷特开始构思一种不同的方法，他称之为自注意力。这种网络可以通过参考段落的任何其他部分来翻译一个词。其他部分可以解释一个词的意图，并帮助系统产生良好的翻译。“它实际上考虑了所有内容，并为你提供了同时查看多个输入并以相当选择性方式取出某些内容的高效方法，”他说。尽管人工智能科学家们小心翼翼地不要将神经网络与生物大脑的运作方式混为一谈，但乌什科雷特似乎确实认为自注意力在某种程度上类似于人类处理语言的方式。

乌什科雷特认为，“自注意力模型”可能比循环神经网络更快更有效。它处理信息的方式也非常适合于大规模生产的强大并行处理芯片，以支持机器学习的激增。与其采用线性方法（依次查看每个词）不同，它采用了更加并行的方法（同时查看一堆词）。如果正确使用，乌什科雷特认为人类可以专门使用“自注意力”来获得更好的结果。

但并不是每个人都认为这个想法会改变世界，包括乌什科雷特的父亲汉斯，他在儿子为谷歌工作期间曾获得两项谷歌教职研究奖。“人们对此表示怀疑，因为它推翻了所有现有的神经结构。”雅各布·乌什科雷特说。放弃循环神经网络？这简直是异端邪说！“从我和我爸爸的餐桌对话中可以看出，我们并不一定是完全对眼的。”

乌什科雷特说服了几位同事进行自注意力的实验。他们的工作显示出了潜力，2016年，他们发表了一篇相关论文。乌什科雷特希望进一步推动他们的研究，但他的合作者们都不感兴趣。相反，就像赌徒在赌场赢得一点小利后离开一样，他们开始应用他们所学到的经验。他说：“这东西确实有用。”“那篇论文上的人对于收获回报并将其部署在谷歌的各个地方，包括搜索和最终广告，感到兴奋。在许多方面，这是一个惊人的成功，但我不想止步于此。”

乌什科雷特觉得自注意力可以承担更大的任务。他会对愿意听的人，甚至是不愿意听的人，进行辩论，并在谷歌校园北部查尔斯顿路上的1945号大楼的白板上概述他的愿景。

2016年的一天，乌什科雷特在谷歌咖啡厅和一位名叫伊利亚·波洛苏金的科学家一起吃午餐。波洛苏金出生于乌克兰，已经在谷歌工作了将近三年。他被分配到一个团队，负责回答搜索框中直接提出的问题。但情况并不太理想。波洛苏金说：“要在Google.com上回答问题，你需要一个非常便宜且性能高的解决方案，因为你只有毫秒级的时间来回答。”当波洛苏金表达了他的抱怨时，乌什科雷特毫不犹豫地提出了一个解决方案。“他建议为什么不使用自注意力呢？”波洛苏金说。

波洛苏金有时与一位名叫阿希什·瓦斯瓦尼的同事合作。瓦斯瓦尼出生于印度，大部分时间在中东长大，后来去了南加州大学，加入了该校的精英机器翻译组攻读博士学位。之后，他搬到了山景城，加入了谷歌——具体来说是加入了一个名为Google Brain的新组织。他将Brain描述为“一个激进的团队”，他们相信“神经网络将推动人类的理解”。但他仍在寻找一个大型项目来参与。他所在的团队位于与波洛苏金语言团队相邻的1965号大楼，他听说了自注意力的想法。这可能是一个项目吗？他同意参与其中。

三位研究人员共同起草了一份名为《变形金刚：用于各种任务的迭代自注意力和处理”》的设计文件。论文开头的第一句话充满自信：“我们很牛逼！”——他们的确有这个资本。

他们的想法是这个机制将转换它接收到的信息，使系统能够像人类一样提取尽可能多的理解。而且乌什科雷特还怀有童年时对变形金刚玩具的美好回忆。“我小时候有两个小变形金刚玩具。”他说。文件的结尾是一张卡通图像，显示了六个变形金刚在山地地形中互相发射激光。

2017年初，波洛苏金离开谷歌，创办了自己的公司。而新的合作者们还在继续加入这个研究团队。一位名叫尼基·帕马尔的印度工程师在印度的一家美国软件公司工作了一段时间后搬到了美国。她于2015年获得了南加州大学的硕士学位，并获得了所有大型科技公司的offer。她最后选择了谷歌。开始工作时，她加入了乌什科雷特的团队，并致力于改进谷歌搜索的模型变体。

另一位新成员是利昂·琼斯。他在威尔士出生并长大，他喜欢计算机“因为这并不寻常”。在伯明翰大学，他修了一个人工智能课程，并对神经网络产生了好奇，神经网络被呈现为一种历史奇观。他于2009年7月获得硕士学位，但在经济衰退期间无法找到工作，靠失业救济生活了几个月。他在当地一家公司找到了一份工作，然后将谷歌视为最后一搏而申请。他得到了这个工作，最终进入了谷歌研究部门，他的经理是波洛苏金。一天，琼斯从一位名叫马特·凯尔西的同事那里听说了自注意力的概念，随后他加入了变形金刚团队。

后来，琼斯碰到了凯尔西，并向他简要介绍了变形金刚项目，但凯尔西并不认同。“我告诉他，‘我不确定那会起作用’，这基本上是我生活中最大的错误预测之一。”凯尔西回忆当时的情况说道。

变形金刚工作吸引了谷歌Brain的其他研究人员，他们也在努力改进大型语言模型。第三波加入者包括出生于波兰的理论计算机科学家卢卡斯·凯撒和他的实习生艾丹·戈麦斯。戈麦斯在加拿大安大略省的一个小村庄长大，每年春天他的家人都会去采集枫树汁。他还在多伦多大学念大三时，就“爱上了”人工智能，并加入了机器学习组——杰弗里·辛顿的实验室。他开始联系谷歌撰写有趣论文的人，并提出延伸他们工作想法。凯撒咬了这个饵，邀请他来实习。几个月后，戈麦斯才知道这些实习是为博士生而不是像他这样的本科生准备的。

凯撒和戈麦斯很快意识到，自注意力看起来是解决他们正在解决的问题的一个有前途且更为激进的解决方案。“我们进行了一次深思熟虑的对话，讨论我们是否想要合并这两个项目。”戈麦斯说。答案是肯定的。

变形金刚团队着手建立一个自注意力模型，用于将一种语言的文本翻译成另一种语言。他们使用了一个称为BLEU的基准来衡量其性能，该基准将机器的输出与人类翻译员的工作进行比较。从一开始，他们的新模型表现良好。“我们从无概念证明到拥有了一些至少与当时最好的LSTM替代方案相媲美的东西，”乌什科雷特说道。但与长短期记忆相比，“它并不更好。”

他们遇到了瓶颈。

直到2017年的一天，诺姆·沙齐尔无意中听说了他们的项目。沙齐尔是一位资深的谷歌员工，他2000年加入谷歌，是公司的传奇人物，最开始从事公司早期广告系统方面的工作。沙齐尔已经从事深度学习五年，并且开始对大型语言模型产生兴趣，但是这些模型远远无法产生他认为可能的流畅对话。

沙齐尔回忆道，当他走过1965号楼的走廊，经过凯撒的工作空间时，他发现自己在倾听一场充满活力的对话。“我记得阿希什在谈论使用自注意力的想法，尼基对此非常激动。我当时想，哇，这听起来像一个好主意。看起来这是一个有趣、聪明的团队，正在做一些有希望的事情。”沙齐尔觉得现有的循环神经网络“令人恼火”，他想：“让我们去替换它们！”

沙齐尔加入团队至关重要。“这些理论或直觉机制，比如自注意力，总是需要非常谨慎的实现，通常由一小部分经验丰富的‘魔术师’来实现，甚至展现任何生命迹象，”乌什科雷特说道。沙齐尔立即开始发挥他的魔法。他决定写自己版本的变形金刚团队的代码。“我采用了基本的思想，然后自己编写了这个东西，”他说。偶尔他会问凯撒一些问题，但他大多数时候说他“只是单独行动了一段时间，然后回来说，‘看，它起作用了。’”使用团队成员后来用“魔法”、“炼金术”和“花里胡哨”的词语来形容的方法，他将系统推向了一个新的水平。

“这启动了一场冲刺，”戈麦斯说道。他们受到了激励，他们也希望达到即将到来的截止日期——5月19日，是一年中最大的人工智能事件，12月举行的神经信息处理系统大会的报告截止日期。随着硅谷所谓的冬季过渡到春季，实验的速度加快了。他们测试了两种变形金刚模型：一种是在12小时的训练后产生的，另一种是更强大的版本称为“大”，经过了三天半的训练。他们让它们进行英语到德语的翻译。

基本模型超越了所有竞争对手——而大模型的BLEU分数则明显打破了先前的纪录，同时也更具计算效率。“我们比任何其他人都花费更少的时间，”帕马尔说道。“而且这只是开始，因为数字不断提高。”当乌什科雷特听到这个消息时，他打开了他的登山探险卡车上放着的一瓶老香槟酒。

截止日期前的最后两周异常忙碌。虽然团队中有些人的正式工作桌位还在1945号楼，但他们大多在1965号楼工作，因为那里的微型厨房里有一台更好的意式浓缩咖啡机。“我们几乎没有休息。”作为实习生的戈麦斯说道，他生活在一个持续不断的调试狂热中，还为论文制作了一些图表。在这样的项目中进行消融是很常见的——将一些东西拿出来看看剩下的是否足以完成任务。

“我们尝试了所有可能的技巧和模块组合——哪些有帮助，哪些没有。我们将其剥离。我们用一个替换另一个，”戈麦斯说。“为什么模型会以这种违反直觉的方式行为？哦，因为我们忘记正确执行掩码。它是否已经生效？好的，继续下一个。现在我们所谓的变形金刚的所有组件都是这种极高速、迭代式的试错的结果。”戈麦斯说，在沙齐尔的实现的帮助下，这些消融产生了“一些极简主义的东西”。琼斯说：“诺姆是个巫师。”

瓦斯瓦尼回忆起一天晚上在办公室的沙发上睡着了，当时团队正在写论文。当他盯着将沙发与房间其余部分分开的窗帘时，他被布料上的图案所震撼，它对他来说看起来像突触和神经元。戈麦斯在场，瓦斯瓦尼告诉他，他们正在从事的工作将超越机器翻译。“最终，就像人类大脑一样，你需要将所有这些模式——言语、音频、视觉——统一到一个结构下，”他说。“我强烈感觉到我们正在接触到更一般的东西。”

然而，在谷歌的高层管理中，这项工作被视为另一个有趣的人工智能项目。记者询问了一些变形金刚团队的成员，他们的老板是否曾召集他们更新项目的情况。并不多。但“我们明白这可能是一件大事，”乌斯科赖特说。“这导致我们实际上对论文末尾的一句话产生了过度关注。”

这句话预示着接下来可能发生的事情——将变形金刚模型应用于基本上所有形式的人类表达。“我们对基于注意力的模型的未来感到兴奋，”他们写道。“我们计划将变形金刚扩展到涉及除文本以外的输入和输出模式的问题”，并调查“图像、音频和视频”。

到截止日期前的几个晚上，乌斯科赖特意识到他们需要一个标题。琼斯注意到，团队已经对被广泛接受的最佳实践，尤其是LSTM（长短期记忆网络），采取了一种激进的拒绝态度，采用了一种技术：注意力。琼斯回想起，披头士乐队曾经有一首歌叫做“爱是唯一需要的”。为什么不把论文命名为“注意力就是你所需要的”呢？

披头士乐队？

“我是英国人，”琼斯说。“我只用了五秒钟的时间来思考。我没有想到他们会使用它。”

他们继续收集他们的实验结果，直到截止日期。“英法语言对的数据是在我们提交论文前五分钟出来的，”帕玛说。“我当时坐在1965号楼的微型厨房里，收到了最后一组数据。”就在剩下不到两分钟的时候，他们发送了论文。

谷歌，像几乎所有的科技公司一样，迅速对这项工作进行了临时专利申请。其目的不是为了阻止其他人使用这些想法，而是为了建立其专利组合，以防御目的。（该公司有一个“如果技术进步，谷歌将获得利益”的理念。）

当变形金刚团队从会议的同行评审员那里听到反馈时，反应是各种各样的。“一个是积极的，一个是非常积极的，一个是，‘这还行，’”帕玛说。该论文被接受用于晚上的海报展示会之一。

到了2017年12月，这篇论文引起了轰动。他们在12月6日举办的四小时会议上挤满了想要了解更多信息的科学家。作者们讲到声音都嘶哑了。到了晚上10:30，当会议闭幕时，仍然有一群人。“保安不得不告诉我们离开，”乌斯科赖特说。对他来说，也许最令人满意的时刻是当计算机科学家塞普·霍赫赖特走上前来赞扬这项工作——考虑到霍赫赖特是长短期记忆网络的共同发明者，而变形金刚已经将其作为人工智能工具箱中的首选工具推向了市场，这可谓是相当的赞誉。

变形金刚并没有立即统治世界，甚至没有统治谷歌。凯撒回忆说，大约在论文发表时，沙泽尔向谷歌高管提议，公司应该放弃整个搜索索引，用变形金刚训练一个庞大的网络，基本上是为了改变谷歌组织信息的方式。那时，连凯撒自己都认为这个想法是荒谬的。现在，普遍认为这只是时间问题。

一家名为OpenAI的初创公司更快地行动了。论文发表后不久，OpenAI的首席研究员伊利亚·苏茨凯维尔曾在谷歌期间认识了变形金刚团队，他建议OpenAI的一位科学家亚力克·拉德福德研究这个想法。结果就是第一批GPT产品。正如OpenAI的首席执行官萨姆·阿尔特曼去年告诉记者，“当变形金刚论文发表时，我认为谷歌内部没有人意识到它意味着什么。”

内部情况更为复杂。“我们很清楚变形金刚可以做出非常神奇的事情。”乌斯科赖特说。“现在，你可能会问，为什么在2018年谷歌没有推出ChatGPT？实际上，我们可能在2019年，甚至2020年就推出了GPT-3或甚至3.5。关键问题不是，他们看到了吗？问题是，我们为什么没有利用我们看到的事实？答案很复杂。”

许多技术评论家指出，谷歌从以创新为中心的游乐场转向以利润为中心的官僚机构。正如戈麦斯告诉《金融时报》的那样，“他们没有现代化。他们没有采用这项技术。”但对于一个技术引领行业、几十年来获得巨额利润的巨头公司来说，这将需要很大的勇气。谷歌确实在2018年开始将变形金刚整合到产品中，首先是其翻译工具。同年，它推出了一种名为BERT的新的基于变形金刚的语言模型，该模型在接下来的一年开始应用于搜索。

但与OpenAI的飞跃和微软大胆地将基于变形金刚的系统整合到其产品线相比，这些底层的改变似乎显得有些保守。当记者2023年问谷歌首席执行官桑达尔·皮查伊为什么他的公司没有第一个推出像ChatGPT这样的大型语言模型时，他认为在这种情况下，让其他人领先对谷歌有利。“目前还不完全清楚它是否会运作得很好。事实是，在人们看到它如何运作后，我们可以做更多事情，”他说。

不可否认的事实是，论文的所有八位作者都已经离开了谷歌。波罗苏金的公司Near构建了一个区块链，其代币市值约为40亿美元。帕玛和瓦斯瓦尼于2021年成为商业合作伙伴，创立了价值10亿美元的Adept，并且现在已经创立了他们的第二家公司Essential AI（获得了800万美元的资金）。乔恩斯的位于东京的公司Sakana AI的估值为2亿美元。2021年10月离开的沙泽尔共同创立了Character AI（估值50亿美元）。该团队的实习生戈麦斯于2019年在多伦多创立了Cohere（估值22亿美元）。乌斯科赖特的生物科技公司Inceptive估值3亿美元。所有这些公司（除Near外）都基于变形金刚技术。

凯撒是唯一一个没有创办公司的人。他加入了OpenAI，并成为一项名为Q*的新技术的发明人之一。阿尔特曼去年表示，这项技术将“扩大我们对未知的认识，推动探索的前沿”。（当记者在采访中尝试询问凯撒有关此事时，OpenAI的公关人员几乎跃过桌子来制止他。）

谷歌错过了这些逃跑者吗？当然，还有其他一些人从公司转移到了新的人工智能初创公司。（当记者询问皮查伊有关变形金刚离职的情况时，他提醒记者，行业宠儿OpenAI也曾看到员工离职：“人工智能领域非常非常动态，”他说。）但谷歌可以自豪地宣称，它创造了一个支持追求非传统思想的环境。“从很多方面来说，谷歌一直走在前面——他们投资于正确的人才，并创造了一个我们可以探索和突破界限的环境，”帕玛说。“谷歌花费了更多时间来采用它并不奇怪，因为谷歌有更多的利益牵扯其中。”

没有那样的环境，就没有变形金刚。这些作者不仅都是谷歌的员工，他们还在同一办公室工作。走廊上的偶遇和听到的午餐对话导致了重要时刻的发生。该团队的文化也是多元的。八位作者中有六位出生在美国以外的国家；另外两位是两位带着绿卡的德国人的孩子，他们暂时在加州，以及一位第一代美国人，他的家人曾经是受迫害的难民。

乌斯科赖特在他的柏林办公室表示，创新取决于正确的条件。“这是找到对某件事情非常兴奋的人，而且正处于人生的正确阶段，”他说。“如果你拥有这一切，并且在做的时候感到快乐，你正在解决正确的问题——而且你很幸运——魔术就会发生。”

乌斯科赖特和他著名的父亲之间也发生了一些魔术。在所有那些餐桌上的辩论之后，汉斯·乌斯科赖特的儿子报告说，他现在共同创办了一家正在构建大型语言模型的公司——当然是使用变形金刚。■

幸福双城资讯网

OpenAI的秘密武器：八个谷歌大神如何引爆AI革命

元绍环球疯人