【长期主义】第300期智能说:杨植麟最新分享,谈OpenAIo1新范式

科技有六合 2024-09-21 17:16:51

2024年9月14日,月之暗面创始人杨植麟,在天津大学宣怀学院做分享,带来关于AI行业发展与未来趋势最新深度思考,内容包括通用模型产生因素、AGI面临挑战、OpenAI o1模型新范式、这一代AI技术上限、下一代模型核心能力等。

英伟达近年业绩狂飙背后,在收购方面表现活跃,不完全统计,英伟达过去25年收购27家企业,过去5年收购企业数量,占公司历史上全部收购数量接近一半,尤其是过去4个月,以每月一家速度收购AI与数据中心相关企业。英伟达通过整合被收购企业,不断提升技术积累,加深在GPU、AI、数据中心、云计算等领域护城河。

本期长期主义,选择月之暗面创始人杨植麟最新分享、英伟达业绩狂飙背后重要战略收购,腾讯科技、智东西发布,六合商业研选精校,分享给大家,Enjoy!

正文:

全文13,362字

预计阅读27分钟

月之暗面创始人杨植麟最新分享:关于OpenAI o1新范式的深度思考

时间:2024年9月14日

来源:腾讯科技

字数:7,021

OpenAI o1发布,又一次引发业内关于大模型进化新范式的讨论。

讨论的焦点,是两个公认大模型进化瓶颈:数据瓶颈,数据不够用;算力瓶颈,3.2万张卡已是目前的天花板。

o1模型似乎找到新出路,采用强化学习,试图通过更深入思考与推理,克服限制,提高数据质量与计算效率。

针对新范式是否能够推动大模型竞争进入新阶段,月之暗面创始人杨植麟有一些新的深度思考。

2024年9月14日,杨植麟在天津大学宣怀学院做分享,最后引用《思考,快与慢》作者尼尔·卡尼曼Daniel Kahneman讲的话,很多时候你愿意去做一个你不知道的东西,你不知道有很多东西不知道,你才有这样勇气去做。当你做了,会发现有很多新问题,也许这个东西就是创新的意义。

划重点:

Scaling law之后,大模型发展下一个范式是强化学习。

OpenAI o1模型的发布,通过强化学习尝试突破数据墙,看到计算更多向推理侧增加的趋势。

决定这一代AI技术的上限,核心是文本模型能力上限。

AI产品能力,由模型能力决定,这与互联网时代有本质不同,模型能力不强,产品体验不会好。

AI时代超级应用,大概率会是AI Agent。

分享实录:

今天主要分享对AI行业发展思考。

AI发展70多年,中间经历很多发展阶段。2000~2020年,AI主要是集中在垂直领域,比如说也诞生很多人脸识别、自动驾驶公司,这些公司核心在做的很多任务是垂直任务,为了一个特定任务来做。

耗费人力、是定制化的系统,这是之前AI核心范式,种瓜得瓜,想吃一个西瓜就种西瓜,永远不能种瓜得豆。

这个范式,在最近几年发生很大变化,不再是训练很特定的AI模型,而是训练通用智能。

通用智能有什么好处?同一个模型可以用到不同行业、不同任务,可以极大程度泛化,它的空间会很大。

如果最后在很多领域做到人的水平,可能一定程度上对社会GDP产生杠杆,每个人的生产力都会变大、变强。本来只能产生一份的生产力,现在用通用AI帮你做各种各样任务之后,有可能能乘一点几倍,甚至2倍、10倍,这个取决于通用智能发展到什么阶段。

通用模型产生的三个因素

为什么最近几年,突然能产生通用模型?我觉得既是必然,也是偶然。必然是说人类科技发展,总是有一天会达到这个节点。

它的偶然,是刚好满足三个因素:

第一、互联网发展20多年,为AI提供大量训练数据。

互联网等于是把世界或人的想法,做数字化的过程,让每个人产生数据,每个人脑子里的想法,最终变成一堆数据。

这个很巧合,估计2000年时,大家开始做互联网产品像搜索引擎时,或者做门户网站时,可能从来没有想到,有一天这些数据,能为人类文明下一代科技产生贡献。等于说在科技树的发展上,互联网是AI的前置节点。

第二、计算机里很多技术,也都是AI前置节点。

比如说要达到10的25次方FLOPs浮点数运算的运算,才能得到足够聪明的模型。

要这么多次浮点数运算在单一集群里面,在一个可控的时间范围内完成计算,这个在10年前是没法做到。

这就取决于芯片技术发展、网络技术发展,不光是芯片算得快,还要把芯片连接起来,还要有足够大带宽、有足够大存储,所有这些技术叠在一起,才能在2~3个月时间内算到10的25次方。

如果要花2~3年,才能算10的25次方,可能就训练不出来现在的模型,叠加周期很长,每次训练失败了,可能要再等好几年,就只能训练少一两个数量级的模型。少一两个数量级的浮点数运算,产生不出来现有智能,这是背后Scaling law决定。

第三、算法上提升。

Transformer结构是2017年发明,发明的开始还是翻译模型,有点像专用概念。有很多人拓展更通用概念,后来大家发现Transformer是一个高度通用架构。

不管是什么样数据,不管要学的是什么,只要能用数字化表述,它就能用Transformer学习,这个通用体现在规模化的性质非常好。

如果用更传统的结构,比如用循环神经网络或卷积神经网络,可能会发现,到10亿参数或更多的时候,再加参数或再加计算,就不会变好。

对Transformer来讲,只要一直加就会一直好,几乎看不到上限。这样的结构,使得通用学习成为可能。只要不断把数据放到模型里,然后定义你要学习的目标函数。

这三个东西加起来,产生现在我们看到的通用模型,缺一不可。

我们会发现很神奇,人类技术的发展,都是站在前人肩膀上。

有一本书《技术的本质》,非常强烈推荐。技术的发展,基本上是组合演进的过程,每一代的技术,可以认为都是前面好几代技术的组合。有一些组合能产生的威力,会比剩下的组合要大得多,比如刚刚说的这三个组合,就是非常强大,它能产生通用模型。OpenAI之前,可能没人能想到这三个东西组合起来,能产生这么大的威力。

AGI的三层挑战

刚才三个要素前提下,我觉得对通用智能AGI来讲,可能会有三个层面:

最底层是Scaling law,这是第一个层次的创新机会,它被OpenAI发现,做到极致。

第二个层创新机会,是Scaling law框架下有一些问题没有解决,比如怎么把所有模态用统一的表示,放到同一个模型里,这是第二个层次的挑战。

互联网发展20多年,毕竟数据有限,整体积累的数据不够多。现在大家遇到一个问题,就是数据墙的问题,没有更多数据可以训练。

我举个例子,假设现在要做一个数学能力很好的AI,我们应该想的问题是,我应该有哪些数据会帮助我学习数学能力?现有被数字化的数学题很少,可能在互联网上有大部分数据跟数学没什么关系。

现在好的数据,被大家用的差不多,很难有任何一个人或任何一个公司,今天可以找到比互联网大10倍的数据拿来训练,会遇到数据墙的问题。

如果解决第二层次问题,就会获得第二个层次的机会,或者收益。

第三层次问题,比如能够做更长上下文,能够有更强的推理reasoning或者指令遵循instruction-following,这些是第三个层次问题。

最底下层次是第一性原理,有了第一性原理之后,是0与1的本质区别。

第一性原理之上,可能还有很多第二个层次,就是核心技术需要解决,现在有很多人在解决第二个层面核心技术,只要把第二个层面做好,也能让技术从本来只是可行,到变得非常可用,是大规模使用。

如果看蒸汽机发展,都是一样的一开始发明定理,发现第一性原理没问题。蒸汽机落地过程中,一开始动力不够好,或者是成本太高,基本上所有新技术出来都会有这两个问题,

刚刚我们讲到有一个很重要的问题,就是数据墙问题。这种情况下,根据第一性原理,又要不断训练更大模型,要不断加更多数据,这里会有冲突。

天然的数据,已经被穷尽,这时怎么能够加更多数据,能够让它持续规模化,这里面会涉及到范式转移。

原来做的事情很简单,只是去预测下一个Token,本身包含非常多推理、知识。

比如假设现在有一句话,距离北京最近的直辖市是天津,语言模型会把前面东西作为输入去预测最后的词是天津还是重庆等,它会做预测。预测多了,就知道是天津。通过这种预测,就会把知识吸收到模型里,就能学会知识。

另外一种任务,比如现在读了一本侦探小说,看了前面9章,到最后1章要预测凶手是谁。如果能正确预测凶手,还是像刚才说的做下一个词的预测。假设现在有一句话,最后推理半天,发现凶手是某一个人,这个模型就学会推理。

如果有很多这样数据,它就学会推理。既能学到推理,也能学到知识,也能学到很多其它别的任务。

如果把能搜到的数据全部拿下来,让它持续预测下一个词,它的智商会越来越高,推理能力会越来越强,知识会越来越多。

这里面,会分成三种不同类型能学到的东西:

第一、如果考虑熵很低的情况下,可能一些事实性的东西、知识本身没有任何熵,entropy level非常低,就直接把知识记下来。

第二、推理过程,像侦探小说推理的过程有一个中等的熵,可能有多条推理路径,最终得到的是一样的结果。

第三、比如说一些创作类,现在想写一本小说,它不是确定性的事情,它的熵非常高。

这几种不同的东西,都可以在一样的框架里,被预测下一个词这样的单一目标,只做这一件事情就能学会,这是通用智能的基础。

把这些东西全部放在同一个东西里面学,不用挑到底是在学小红书,还是在学维基百科等,它非常通用,这个是通用智能的基础。

OpenAI发布o1,标志新范式产生

下一个范式是通过强化学习来做。

为什么要强化学习,就是刚才说的天然数据不够用,最近OpenAI发布o1,标志着从左边范式迁移到右边范式,左边范式数据不够了。就像刚才说的,这个世界上数学题就这么多,如果要提升数学怎么办?

可以一直生成更多题,自己做题,有的做对,有的做错,学习哪些做对,哪些做错,就可以持续提升,这个本质就是强化学习的过程。

它的范式,跟刚才说的不太一样,刚才说的是找天然数据预测下一个词是什么,现在是通过第一步之后,得到比较好的基础模型,可以一直自己跟自己玩,生成很多数据,把好的学了,把不好的扔掉,通过这种方式创造出很多数据。

比如大家如果看o1,中间会生成很多思考。这个思考到底有什么作用,核心是生成数据的过程。

这些数据本身在世界上不天然存在,比如很厉害的数学家证明了新的定理,或者解了什么样数学题,或者参加什么竞赛解了数学题,只会把答案写出来,不会把思考过程写出来,它是天然不存在这样的数据。

现在如想让AI,把人脑里面本身的思考过程生成出来,通过学习这个思考的过程,得到更好的泛化。

比如现在给学生一道很难的题,如果直接学这道题的解答,不知道在干什么。他需要有人给他讲一下,这一步原来是这样,为什么能得到这个思路,是有思考的过程。如果能学到思考的过程,下次遇到不太一样的题,他也能做。

如果只是学了解答,每一次只能做一样的提醒。只能说,我今天解一个一元二次方程,每次都用一样的方法解,把这个题型背下来也可以。

如果能学到思考的过程,等于说有一个名师一直教你思考的过程是什么样,你把思考的过程学下来,泛化能力会更好,能通过这个过程,又产生更多天然不存在数据,它本身是很好的补充。产生了数据之后,这个Scaling就能持续做下去。

这个Scaling现在也发生一些变化,原来大部分Scaling发生在训练阶段,就是我找一堆数据让它训练。现在大部分计算,或者说越来越多计算会转移到推理阶段,现在要思考,思考的过程本身也是需要花算力,本身也是可以被规模化的东西,就是能逐渐往推理侧加更多的算力。

这个也有道理,比如今天想让一个人完成更复杂的任务,肯定是需要花更长时间,不可能期待他1~2秒就能证明黎曼猜想。要证明黎曼猜想,有可能要想好几年。

接下来很重要的点,怎样定义越来越复杂的任务。这些更复杂的任务里,有可能模型跟人交互的方式会发生一些变化,可能是从现在完全同步的形式,一定程度上变成异步,就是允许它花一些时间查一些资料,思考分析一下,最后再给你一个报告,而不是说马上给你一个解答。这样就能允许它完成一些更复杂的任务,等于把推理阶段Scaling Law跟强化学习结合起来。

这一代AI技术上限,核心是文本模型能力上限

我觉得决定这一代AI技术上限,很核心还是文本模型能力上限,如果文本模型能持续提升智商,就是能做越来越复杂任务。它有点像学习的过程,一开始能做小学题,逐渐能做中学、大学,现在有一些博士的知识与推理能力都具备。

文本模型在持续提升,这一代AI上限会很高。我觉得文本模型,是决定这一代AI技术价值的上限,持续提升文本模型能力很重要。现在只要Scaling Law能继续,大概率就能持续提升。

横坐标是加更多模态,现在大家讨论不少多模态模型。比如说会有视觉输入、视觉输出、音频输入输出,会有这几个模态,甚至在这几个模态里任意转换。

比如今天通过一张图,画了产品需求,这个产品需求可以直接变成代码,这个代码里还可以自动结合生成视频作为Landing Page,这个任务就是横跨多模态的任务,今天AI还没有办法完全做到,可能1~2年时间,就能把模态结合起来。

最终这些模态结合多好,是取决于大脑怎么样,就是文本模型足够强。中间需要很复杂的规划,要规划接下来先做什么,做第二步时,发现结果跟之前想的不太样,可以随时调整,第三步不要这样做,可以换成别的方式做。

这里面,需要很强思考与规划能力,需要在很长窗口下面保持一致、遵循指令、推理能力,这个都是由文本模型上限决定。

这两个东西,是横向与纵向,多模态能力更多是横向发展,就是能做越来越多事情。文本模型更多是纵向发展,决定AI有多聪明。只有聪明了,AI才能做很多事情。

如果说很聪明,没有眼睛,可能做的事情会受限,这是两个不同维度。这两个维度在接下来也会得到提升,接下来2~3年时间里,我觉得还是有非常大概率,这两方面应该会同步提升,等于就能把整个东西给包起来。如果把整个东西包起来,就是所谓AGI。

每一个新技术出来后,都会面临两个问题:效果不太好、成本太高。

对于AI来说也一样,好消息是基本上这个效率提升还是非常惊人。

首先会出现在训练阶段。

比如今天想训练GPT-4 level的模型,花的训练成本只是2年前的几分之一,甚至如果做得好,有可能用1/10的成本,就能训练出来智商一样的模型。

推理成本在持续下降。

2024年相比2023年,推理阶段产生单位智能的成本,基本上降了一个数量级,2025年估计还会再有一个数量级的下降。它会让AI商业模型更成立,获得智能成本会越来越低,产生的智能越来越高。

对用户来讲,ROI会越来越高,用AI的会越来越多,我觉得这是很重要的趋势。

这两个重要趋势叠加起来,一方面会在训练阶段得到越来越多智能,另一方面是智能越来越便宜被人使用,可以更大规模部署。

这个模型还会持续发展,接下来如果看OpenAI o1,很重要的提升,是现在可以完成一些比如人类要想很久才能完成的任务,它不是在回答一个简单的问题,而是经过20秒的思考。

这个20秒,是计算机本身想的快一点,如果让人想同样内容,可能要想1~2个小时。计算机可以把很久的过程做一些压缩,能够完成时长越来越长的任务,我觉得这是重要的趋势。

下一代模型的三个核心能力

接下来也许AI能做分钟级别、甚至小时级别的任务,会在不同模态之间切换,推理能力会越来越强,我觉得这几个,是接下来AI发展很重要的趋势。

我们希望能把产品与技术结合在一起,现在产品逻辑跟互联网产品逻辑发生很大变化。

现在的产品,基本上很大程度由模型能力决定。如果模型能力做不到,这个产品体验是没有办法体现出来。

现在有更多概念,就是模型即产品。

我们在做Kimi时,也是很希望能把产品与模型更紧密结合在一起去思考。比如产品上想做一个功能,背后是需要对应模型能力支撑。

我觉得这里会一个相对确定性需求,AI Agent。

AI时代,大概率超级应用会是AI Agent,我觉得对智能的需求是非常普适的需求,只不过今天能力还是处于初级阶段。这个市场,是适应与拥抱新技术的过程,随着效果不断变好、成本不断下降,会导致有越来越强的市场适应性。

大概率接下来5~10年时间内,肯定会有大规模市场应用的机会,我觉得它面向的还是普适的智能需求。

现在用的所有软件、APP背后,是由几百、几千个工程师开发出来,背后的智商是固定的。

把人的智商,通过一些代码,本质上是一种规则编码下来,智商就固定在那它不会发生变化。

对AI产品来讲,不太一样,背后是模型,可以认为模型就是有几百万个人,几百万个人的能力很强,可以帮你完成不同任务,我觉得它的上限很高。

这里面很重要的一件事是,如果想做越来越复杂的任务,必须能够支持越来越长的上下文。我们前期在这上面,聚焦做了很多能力上的提升,通过上下文长度解决推理能力的问题,未来我们也会聚焦很多生产力的场景。

我觉得这一代AI最大的变量,还是在生产力端。

现在社会里,每一单位的生产力,可能都会有10倍提升的机会,我们希望能够聚焦在这些生产力场景,持续把效果优化得更好。效果优化得更好,背后对应的是模型能力提升。

AI现在最大变量,是在于把数据本身当成变量看,当你优化一个系统时,数据不应该看成常量,不应该是静止的东西,这个跟以前做AI研究的范式不太一样。

比如如果是7年前或5年前,甚至现在很多人研究AI技术的方法是把数据固定,一个固定数据集,然后就去研究各种不同方法、不同神经网络结构、优化器,就只是在固定数据的情况下提升效果。

我觉得现在数据,越来越多会成为一个变量,就是怎么使用数据,或者说获得用户反馈,会越来越多成为这里面很重要的东西。

比如有一个很重要的技术是RLHF,核心是怎么从人类反馈里学习。说AI有很强的智能,它没有跟人类价值观对齐,或者产生的不是人类想要的东西,可能不会有非常好的用户体验。

通往AGI的过程,更多是共创的过程,不是纯技术,应该是技术跟产品更好融合。等于把产品当成环境,模型在这个环境里跟用户交互,不断从跟用户交互过程中学习,这样会持续变得更好。

过去从2018年开始,当时Transformer开始出来之后,我们也做了很多基于Transformer的研究与探索。

一开始的时候,确实没有想到最终效果能做到今天这样。接下来效果还会持续提升,只要Scaling Law一直存在,或者一直成立,模型智商会一直上升。

对我而言,整个探索过程是巨大的,它源自深刻的好奇心。这个过程中,不确定性无处不在。

我们往往会比实际情况更加乐观,这是我们不知道有些东西是我们所不知道的。比如,在我们最初开始这个项目时,预想到许多困难,最终发现,无论我们预测了多少挑战,实际情况总是比我们想象的更加艰难。

尽管第一性原理可能清晰明了,未知因素太多。

正如《思考,快与慢》作者丹尼尔·卡尼曼所言,很多时候,我们愿意尝试我们不知道的事,正是我们不知道自己还有很多不知道的东西,这种无知赋予我们勇气。当你开始尝试时,你会发现许多新问题,这也许正是创新的精髓所在。

可能大多数时候,你的尝试可能会失败,偶尔你会发现某个解决方案突然奏效。这种情况经常在我们办公室发生,你会看到有人突然欢呼,你可能会以为他出了什么问题,实际上,他只是突然发现某个方法有效,就这么简单。

我认为,很多时候,观察哪些方法有效,哪些无效,就是探索真理的简单过程。这种探索,不仅局限于技术领域,无论是产品还是商业模式,找出哪些可行,哪些不可行,或者仅仅是探索答案本身,都非常有价值。

并购狂魔英伟达,揭秘英伟达业绩狂飙背后重要战略收购

时间:2024年8月26日

来源:智东西

字数:6,341

英伟达正在收购领域提速走量,过去4个月,以每月1家速度收购AI与数据中心相关的企业,进一步提升他们在相关领域技术积累。

4月,英伟达以7亿美元价格,买下以色列数据中心管理软件企业Run:ai;

5月,英伟达以3亿美元价格,买下以色列端到端深度学习平台开发商Deci;

6月,英伟达买下数据中心故障自动化处理技术公司Shoreline,价格未披露;

7月,英伟达买下AI开发工具创企Brev.dev,价格未披露。

英伟达近期在收购市场异常活跃的表现,符合他们过去5年来在收购方面总体趋势。

根据智东西不完全统计,2019年英伟达轰动一时的69亿美元Mellanox收购案以来,他们累计成功收购13家企业,曾计划以400亿美元天价收购英国芯片设计巨头Arm。

英伟达成立至今已有31年,他们过去5年,所收购的企业数量,占公司历史上全部收购数量的接近一半。

英伟达收购有一个显著特点,软硬件全栈式收购,旨在实现端到端解决方案,这点在他们最新一波面向AI与数据中心的收购热潮中得到充分体现。

一方面,他们拓展英伟达在核心数据中心业务上覆盖面,通过收购将通信网络技术、对象存储软件、数据中心管理软件、高性能存储技术等领域的顶尖企业都收入囊中,并将相关技术纳入英伟达B端业务中,全面覆盖数据中心高效运作的重要环节。

英伟达如此布局,能让客户实现一站式解决方案,产品的总拥有成本、总运营成本也得到降低。另一方面,英伟达还不断扩展新业务,在模型小型化、深度学习开发平台、元宇宙、自动驾驶领域开展收购操作,多线发展,颇有要将自己打造成平台型企业的趋势。

英伟达从1999年上市,并在科技行业占据一席之地以来,他们一直贯彻类似收购理念。英伟达还会在收购中,将被收购企业深度整合进自己业务:人员加入英伟达,软件加入英伟达堆栈,硬件与英伟达芯片融合。

21世纪初,英伟达通过对多家软件企业收购,丰富早期CUDA中多个重要的渲染引擎与开发工具,承接所收购企业的开发者生态。

他们当时买下的PhysX物理引擎,至今仍在更新,后续发展的光线追踪技术Ray Tracing,也可溯源至这一阶段的收购。

硬件方面,他们收购昔日GPU巨头3dfx绝大部分资产,包括40余项专利,打包带走100多名经验丰富的工程师。

他们还用收购建立大中华区、欧洲等地销售与客户支持体系,打开国际市场。

英伟达在2015年之前,曾是手机、平板等移动设备芯片领域活跃玩家,在自研的Tegra芯片之外,他们陆续买下英国知名基带与射频芯片设计商Icera与苹果公司移动设备芯片设计商PortalPlayer等具有移动设备芯片开发经验的企业。

英伟达最终退出这一业务,但它在移动设备芯片上积累的开发经验,对智驾芯片与机器人芯片开发工作有重大意义。

智东西根据公开资料,整理出英伟达上市以来,25年中27场收购,分析了其中具有重大意义的19场战略收购,勾勒出英伟达全栈式的扩展版图。

英伟达过去25年收购27家企业

1999~2009:大举收购竞争对手与行业头部企业,筑起3D图形领域初代护城河

1999年,英伟达已经从创业早期泥潭中走出,通过畅销的Riva系列芯片与GeForce系列芯片在GPU行业站稳脚跟,成功上市。

2004年之后,英伟达是GPU行业中唯一幸存的独立玩家。当时英伟达收购方向,便体现出软硬件全栈式布局的思想,这让英伟达能在巨头云集的科技行业筑起护城河。

1、2000年,以1亿美元变相收购竞争对手3dfx

竞争对手的破产与倒闭,给英伟达创造许多收购机会,最有代表性的一笔是2000年底对3dfx的收购。

3dfx,1994年在美国成立,曾是3D游戏与图形加速领域无可争议领军企业,他们Voodoo系列显卡被广泛认可为高端显卡的代表。

在一系列决策失误后,3dfx陷入财务困境。英伟达以1亿美元,收购3dfx绝大部分资产,包括Voodoo显卡品牌、3dfx的7项专利,另外40项申请中专利,外加100多名工程师,基本掏空3dfx家底。

这笔交易,导致3dfx债权人将3dfx告上法庭,认为这笔交易中大量资产被低价变卖。黄仁勋作为证人出席本场诉讼,他称3dfx的人才,是他收购的主要动机。

2、2002年收购3D图像渲染软件企业Exluna

2002年,英伟达收购美国3D图像渲染软件企业Exluna。Exluna由动画公司皮克斯的几位前员工于2000年创办,收购后,Exluna创始人Larry Gritz加入英伟达,领导英伟达内部团队开发出世界上第一个基于GPU的影视内容渲染器Gelato。

3、2005年以5,200万美元收购中国台湾核心逻辑芯片开发商宇力电子

宇力电子ULi Electronics,2002年底成立,是一家中国台湾核心逻辑芯片开发商。

2005年底,英伟达宣布以5,200万美元价格收购宇力电子。黄仁勋认为这笔收购,能让英伟达掌握PC核心逻辑技术,从而更好开发针对台式机、笔记本、工作站的解决方案。

宇力电子,是从1987年成立的中国台湾知名集成电路设计企业扬智科技分割出来。宇力的总部位于台北,在深圳、上海与中国台湾芯片重镇新竹都设有办事处。

英伟达看中宇力电子在大中华地区影响力,他们能利用宇力网络提供更为密切的客户支持。

4、2007年收购德国老牌渲染技术公司Mental Images

Mental Images 1986年成立,是家位于德国柏林的视觉渲染软件公司。他们Metal Ray技术在视觉特效与设计行业里得到广泛使用,能在图像中实现光线追踪效果,曾在《绿巨人》、《后天》等知名电影中扮演重要作用。

Mental Images创始人Rolf Herken,还创办Incremental Images公司,推动开发世界上第一个基于云的可扩展软件平台,这家公司后续与Mental Images合并。

英伟达2007年收购合并后的公司,具体金额未曝光。Rolf Herken拥有多项视觉计算与云平台技术方面基础专利,他在收购后短暂加入英伟达。

2011年,Rolf Herken离开英伟达,继续创业,有不少Metal Images员工仍然留在英伟达工作,是英伟达在德国的先进渲染技术中心首批员工。

5、2008年收购物理芯片企业AGEIA

物理芯片企业AGEIA,一家成立于2002年的无厂半导体公司。AGEIA物理卡PPU能在游戏中模拟出真实的物理效果,PPU卡对游戏画面提升不显著,更多是完善游戏运行逻辑,这导致玩家购买意愿不高。

2008年时,AEGIA是物理卡市场绝对领先者,开源物理模拟引擎PhysX得到开发者广泛使用,但AEGIA公司日子过得并不好。

英伟达在此时决定收购AEGIA公司,具体金额未披露。收购后,英伟达将AEGIA物理芯片整合进自己GPU中,极大提升英伟达GPU物理模拟能力。

PhysX引擎这一名字,也得到沿用,在游戏之外,还成为了英伟达Omniverse关键基础技术支柱,在机器人、深度强化学习、自动驾驶与工厂自动化领域都得到采用。

第五代PhysX引擎的物理模拟效果

上市头10年期间,英伟达收购,是围绕核心业务GPU进行布局。除了上述5家企业外,他们还在这一阶段收购TCP卸载引擎与iSCSI处理器制造商iReady、芬兰移动设备3D图像技术企业Hybrid。

这些收购,夯实英伟达在面向PC与工作站的GPU设备及配套软件的领先地位,还推动他们全球销售与客户支持体系发展。

2006年,英伟达正式推出CUDA这一计算架构。他们此先购买的多家行业成熟企业的技术,都被纳入CUDA软件包,给他们带来初代的CUDA开发者生态,为英伟达后续崛起打下坚实基础。

2003~2015:收购多家企业入局移动市场,尝试失败,但积累相关开发经验

英伟达有入局移动设备市场的计划,他们所开发的Tegra芯片专门针对移动市场,曾广泛运用于智能手机、平板电脑、轻薄本与移动游戏设备。

Tegra成为2012~2017年间特斯拉的车机娱乐系统芯片,并为自动驾驶功能提供算力支持。英伟达也在这个阶段,收购不少具有移动设备处理器开发经验的企业。

英伟达在移动设备市场的尝试不成功,采用Tegra 4芯片的小米3手机,更是以发热量奇高在国内广受关注。

最终英伟达退出移动设备市场,但相关芯片技术被整合进英伟达面向汽车与机器人的两条芯片产品线上,为这些设备提供AI算力支持。

6、2003年以7,000万美元收购移动芯片企业MediaQ

MediaQ是专门为3G、2.5G手机与其它无线移动设备设计与生产处理器的美国企业,1997年成立,主要客户包括三菱、戴尔、惠普、飞利浦等。

英伟达看中他们在移动设备处理器开发方面丰富经验,2003年以7,000万美元价格收购MediaQ。黄仁勋称,这笔收购让英伟达具备3G移动多媒体革命领域的关键技术,增强他们在超低功耗芯片领域能力。

7、2006年以3.57亿美元收购苹果芯片供应商PortalPlayer

PortalPlayer 1999年成立,是美国系统芯片SoC设计企业,也进行固件与软件开发工作。这家公司90%业务,都仰仗苹果公司,主要为iPod产品线设计媒体处理器芯片。当苹果决定更换芯片供应商时,PortalPlayer业务大受打击。

PortalPlayer为具有划时代意义的iPod 1与后续多个iPod型号提供媒体处理器芯片

2007年,英伟达以3.57亿美元收购PortalPlayer。黄仁勋称这笔收购,是他们推动下一次数字革命的抓手,他们想要让移动设备成为最个人的计算机,这场收购预计将提升他们在便携式游戏机与手机领域市场份额。

8、2011年以3.67亿美元收购英国基带与射频芯片设计商Icera

Icera 2002年英国成立,是一家基带与射频芯片设计商。

2011年5月,英伟达以3.67亿美元的价格收购Icera,Icera在中国、法国、英国、美国都有研发中心与定制化服务分支。

英伟达当时认为这一收购,能补齐英伟达在移动通信领域短板,与他们Tegra芯片一道为客户一站式提供移动设备所需的两块重要芯片,英伟达认为这能将他们在每台移动设备中的收入机会增加一倍。

2015年,英伟达出售之前购买的Icera业务,并正式决定退出移动芯片市场。他们为移动设备开发的Tegra芯片销售一直遇冷,将基带芯片整合进Tegra的计划,也一直未能落地。

汽车与游戏机,是Tegra部门最主要的收入来源,这与英伟达一开始的设想大相径庭。

2012~2024:重新专注GPU市场,加码AI、数据中心、云计算

2012年后,英伟达大大减少在移动领域收购动作,重新关注对他们核心业务GPU有重大价值的企业。

这一阶段,英伟达已经看到AI技术未来的应用潜力,与其对大规模算力的需求。他们进行公司历史上规模最大的几场收购,将相关技术整合进CUDA中,为AI、云计算、数据中心行业的爆发式增长,做好前瞻性的全栈技术准备。

多笔收购带来的软硬件技术,给客户提供了一站式的解决方案,也降低了英伟达产品的总拥有成本、总运营成本,这让更多用户愿意大规模购买英伟达产品。用黄仁勋的话来说,买得越多,省得越多。

9、2013年收购高性能计算系统编译器开发公司波特兰集团PGI

波特兰集团PGI,1989年在美国成立,2000年成为意法半导体全资子公司,主要为高性能计算HPC系统开发商用的Fortran、C与C++编译器。

英伟达CUDA并行计算平台的主要编程接口,就是基于C/C++与Fortran。在被英伟达收购之前,他们就在与英伟达合作开发CUDA相关技术,还与英伟达一道制定GPU计算的新标准,OpenACC指令。

本次收购的价格并未披露,被收购之后,PGI员工继续为多核x86芯片与GPGPU系统开发高级编程框架,相关框架在HPC中的重要性已在不断增加。

时至今日,英伟达仍然使用PGI命名他们HPC编译器与工具集,这也是英伟达HPC软件开发工具包的核心组件之一。

10、2019年以69亿美元收购通信网络技术公司Mellanox

Mellanox 1999年成立于以色列,是一家提供基于InfiniBand技术与以太网技术的通信网络技术公司。

Mellanox的产品,可以为数据中心与HPC系统提供高带宽与低延迟的交换结构。被英伟达收购之前,Mellanox就是通信网络领域的隐形冠军,在InfiniBand市场中的市占率达到近70%。

被收购后,Mellanox大部分员工加入英伟达,以色列总部成为英伟达在以色列的大规模研发中心,拥有2,000多名员工。

英伟达此前并没有计算网络技术部门,这笔收购让英伟达能为数据中心与高性能计算提供更为完整端到端解决方案,也让他们在AI与HPC应用中实现计算与网络的更高程度集成,从而提升英伟达产品在此类工作负载中的表现。

当时与英伟达一起竞标购买Mellanox的企业,还有微软、英特尔、赛灵思,英伟达以极为激进的69亿美元报价最终拿下Mellanox。

这笔收购是英伟达有史以来金额最高、规模最大的一笔收购。黄仁勋在2023年一次采访中透露,当时英伟达就计划转型为一家数据中心导向的企业,如果要在数据中心领域有所建树,就不能只关注计算设备本身,而是要同时关注以通信网络为代表的其它设施上。

英伟达当时看到大模型训练中分布式计算兴起,而在动辄需要成千上万个GPU并行训练的场景中,高质量的通信网络必不可少。黄仁勋在这场采访中感叹道,这是我做过的最好的战略决策之一。

这笔收购对英伟达数据中心业务的高速发展,起到至关重要作用。2019年英伟达买下Mellanox时,他们数据中心业务占总营收比例约为40%。到2024年初时,这一占比已经来到83.3%,是英伟达近年来增长最快的业务。

数据中心业务的蓬勃发展,是英伟达市值达到3万亿的最重要推动力之一,Mellanox的收购,也开启了英伟达这5年以来的收购热潮。

英伟达分业务线营收占比,数据中心业务占比提升迅速

11、2020年收购对象存储软件公司SwiftStack

SwiftStack 2011年成立于美国,专门开发用于AI、HPC、加速计算应用程序的对象存储软件。

在集成为英伟达的一部分后,SwiftStack继续开发他们程序,为英伟达GPU驱动的AI基础设施提供有力支持。

SwiftStack开发了业界首个多云AI/ML数据管理解决方案,还为企业提供混合云存储服务,这对大规模云计算极为重要。这笔收购,是英伟达搭建端到端计算基础设施的又一重要举措。

12、2020年收购数据中心管理软件企业Cumulus Networks

Cumulus Networks 2009年成立,是一家位于美国的数据中心管理软件企业。这笔收购是英伟达对高速增长数据中心业务的针对性补强,提供从操作系统、到分析工具的全面管理软件,让英伟达用户可以自主选择如何部署与自动化数据中心。

13、2020年收购数据传输技术开发商OptiGot

OptiGot 2016年成立于瑞典,致力开发利用激光二极管的半导体元件,他们产品可加速半导体或激光雷达传感器这类终端应用的数据传输速度,这笔收购对英伟达数据中心与汽车业务都有一定意义。

14、2021年收购形式验证公司Oski

Oski是一家成立于2005年的印度科技企业,他们通过精心设计的数学分析来确认处理器中是否有晶体管设计错误。英伟达认为随着他们产品复杂性与范围不断扩大,设计完美的第一颗芯片变得空前重要,Oski的技术能帮助他们更好完成这一任务。

15、2021年收购计算集群管理公司Bright Computing

Bright Computing 2009年在美国成立,是HPC系统软件的头部企业,产品在医疗保健、金融、制造业都有广泛应用。英伟达与Bright Computing有着10多年合作关系,这场收购为英伟达数据中心与边缘计算业务提供自有的先进管理系统。

16、2022年以3,500万美元收购高性能存储技术公司Excelero

Excelero 2014年成立,是一家位于以色列的高性能存储技术公司,曾与Mellanox有深度合作关系,这也促成英伟达对Excelero收购,最终收购价格3,500万美元。

他们开发的NVMesh软件,可以管理与保护数据中心的闪存驱动器虚拟阵列,提升块储存性能。收购后,NVMesh成为英伟达企业软件堆栈的一部分。

17、2023年初收购模型压缩技术创企OmniML

OmniML 2021年成立,是一家专注AI模型压缩技术的美国企业。他们技术让大模型也能在边缘设备上运行,具备较高速度、准确性、成本效益。相关技术,能让英伟达能触及无法负担大规模计算的中小型企业。

18、2024年以7亿美元收购数据中心工作负载管理与编排软件开发商Run:ai

Run:ai是2018年成立的以色列企业,专门从事数据中心工作负载管理与编排软件开发。2024年,英伟达以7亿美元收购Run:ai。在英伟达看来,这笔收购能帮助他们客户高效利用AI计算资源,在AI部署日益复杂,工作负载分散于云、边、端情况下,相关管理软件显得尤为重要。这一收购,进一步提升英伟达数据中心产品竞争力。

19、2024年以3亿美元收购端到端深度学习开发平台Deci

Deci 2019年成立,是一家以色列端到端深度学习开发平台企业。2024年,英伟达以3亿美元收购Deci。Deci AI开发平台,具有一系列专有、可微调的大型语言模型与AI推理集群管理解决方案。英伟达认为Deci团队在NAS、基础模型、推理与开发复杂算法方面的知识很有价值,相关技术可以运用于英伟达定制化AI开发平台。

结语:英伟达收购脚步加快,护城河深度广度不断拓展

除了上述19家企业之外,英伟达还至少收购或变相收购,收购公司核心专利、技术、人员等,包括基因测序公司Parabricks、高精度地图公司DeepMap、云游戏企业TransGaming子公司在内的至少另外8家企业。

英伟达一贯风格是不披露对公司业务没有极重大影响的收购,英伟达过去30多年以来的收购名单只会更长。

在英伟达对芯片架构设计巨头Arm的400亿美元收购计划,因监管压力告吹后,收购风格有所改变,开始更关注中小型企业与创企。

英伟达CFO科莱特·克雷斯Colette Kress对此解释是,我们很难再找到下一个Mellanox这样收购机会,收购是英伟达快速搭建技术能力的重要手段。

CUDA作为英伟达强项与差异化产品,在持续收购中建立起更大优势。

英伟达数据中心业务,随着他们近5年对Mellanox的收购与多笔小规模收购,得到针对性补强。他们软硬件兼顾的策略,与对端到端解决方案的追求,让英伟达护城河不断加宽、加深。

【长期主义】栏目每周六、与长假更新,分以下系列:

宏观说:全球各大国政要、商业领袖等

社会说:比尔·盖茨等

成长说:洛克菲勒、卡内基等

科学说:历年诺奖获得者、腾讯科学WE大会等

科技说:马斯克、贝索斯、拉里·佩奇/谢尔盖·布林、扎克伯格、黄仁勋、Vitalik Buterin、Brian Armstorng、Jack Dorsey、孙正义、华为、马化腾、张小龙、张一鸣、王兴等

投资说:巴菲特、芒格、Baillie Giffrod、霍华德·马克斯、彼得·蒂尔、马克·安德森、凯瑟琳·伍德等

管理说:任正非、稻盛和夫等

能源说:曾毓群等

汽车说:李想、何小鹏、王传福、魏建军、李书福等

智能说:DeepMind、OpenAI等

元宇宙说:Meta/Facebk、苹果、微软、英伟达、迪士尼、腾讯、字节跳动、EpicGames、Roblox、哔哩哔哩/B站等

星际说:中国国家航天局、NASA、历年国际宇航大会,SpaceX、Starlink、蓝色起源、维珍银河等

军事说:全球主要航空航天展等

消费说:亚马逊、沃尔玛、阿里、京东、拼多多、美团、东方甄选等

每个系列聚焦各领域全球顶尖高手、产业领军人物,搜集整理他们的致股东信、公开演讲/交流、媒体采访等一手信息,一起学习经典,汲取思想养分,做时间的朋友,做长期主义者。

相关研报:

【智能时代】现象级游戏《黑神话:悟空》的思考,游戏二元属性,文化与科技

【智能时代】自动驾驶:汽车iPhone时刻,中国三大流派演化形成中

诸神之战:美国科技巨头,从春秋五霸进入战国七雄|GBAT 2023 大湾区智能时代产业峰会

人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来

九宇资本赵宇杰:智能时代思考,认知思维,存在原生、降维、升维三波认知红利

九宇资本赵宇杰:智能时代思考,以史为鉴,科技浪潮,从互联网到AI

九宇资本赵宇杰:智能时代思考,宇宙视角,从碳基生物,到硅基智能体

人类未来文明三部曲之一:元宇宙专题预售开启,59期45万字

九宇资本赵宇杰:1.5万字头号玩家年度思考集,科技创新,无尽前沿

九宇资本赵宇杰:1.5万字智能电动汽车年度思考集,软件定义,重塑一切

【重磅】前沿周报:拥抱科技,洞见未来,70期合集打包送上

【重磅】六合年度报告全库会员正式上线,5年多研究成果系统性交付

【智能电动汽车专题预售】百年汽车产业加速变革,智能电动汽车时代大幕开启

【头号玩家第一季预售】:科技巨头探索未来,头号玩家梯队式崛起

【头号玩家第二季预售】:科技创新带来范式转换,拓展无尽新边疆

【首份付费报告+年度会员】直播电商14万字深度报告:万亿级GMV风口下,巨头混战与合纵连横

【重磅】科技体育系列报告合集上线,“科技+体育”深度融合,全方位变革体育运动

【重磅】365家明星公司,近600篇报告,六合君4年多研究成果全景呈现

九宇资本赵宇杰:CES见闻录,开个脑洞,超级科技巨头将接管一切

【万字长文】九宇资本赵宇杰:5G开启新周期,进入在线世界的大航海时代|GBAT 2019 大湾区5G峰会

九宇资本赵宇杰:抓住电子烟这一巨大的趋势红利,抓住产业变革中的变与不变

【IPO观察】第一季:中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集

【IPO观察】第二季:理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集

【IPO观察】第三季:Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集

【重磅】年度观察2019系列合集:历时3个多月,超20万字近500页,复盘过去,展望未来,洞悉变与不变

【珍藏版】六合宝典:300家明星公司全景扫描,历时3年,210万字超5,000页,重磅推荐

九宇资本赵宇杰:对智能电动汽车产业的碎片化思考

九宇资本赵宇杰:九宫格分析法,语数外教育培训领域的道与术

【2023回乡见闻录】90、00后小伙伴们万字记录,生活回归正轨,春节年味更浓

【2022回乡见闻录】20位90、00后2万字,4国13地,全方位展现国内外疫情防疫、春节氛围、发展现状差异

【2021回乡见闻录】22位90后2万字,就地过年与返乡过年碰撞,展现真实、立体、变革的中国

【2020回乡见闻录】20位90后2万字,特殊的春节,时代的集体记忆

【重磅】22位“90后”2万字回乡见闻录,讲述他们眼中的中国县城、乡镇、农村

六合君3周岁生日,TOP 60篇经典研报重磅推荐

下午茶,互联网世界的三国杀

5G助推AR开启新产业周期,AR眼镜开启专用AR终端时代

新商业基础设施持续丰富完善,赋能新品牌、新模式、新产品崛起,打造新型多元生活方式

【重磅】中国新经济龙头,赴港赴美上市报告合辑20篇

知识服务+付费+音频,开启内容生产新的产业级机遇,知识经济10年千亿级市场规模可期

从APP Store畅销榜4年更替,看内容付费崛起

新三板破万思考:新三板日交易量10年100倍?

九宇资本赵宇杰:科技改变消费,让生活更美好|2017 GNEC 新经济新消费峰会

九宇资本赵宇杰:创业时代的时间法则,开发用户平行时间|2016 GNEC 新经济新智能峰会

九宇资本赵宇杰:互联网引领新经济,内容创业连接新生态|2016 GNEC 新经济新营销峰会

请务必阅读免责声明与风险提示

0 阅读:0

科技有六合

简介:感谢大家的关注