谁在为xAI构建那100,000个GPU集群?

袁遗说科技 2024-08-03 17:24:33

本文由半导体产业纵横(ID:ICVIEWS)综合

没有足够的GPU来满足市场的野心。

埃隆·马斯克控制的公司——SpaceX、特斯拉、xAI和X(前身为Twitter)——都需要大量的GPU,而且都是用于他们自己的特定AI或HPC项目。但问题是,没有足够的GPU来满足他们各自的野心。因此,马斯克必须优先考虑他能得到的GPU的去向。

早在 2015 年,马斯克就是 OpenAI 的联合创始人。在经历了 2018 年一场权力斗争之后(我们认为这场斗争与推动 AI 模型所需的巨额投资以及这些 AI 模型的治理有很大关系),马斯克离开了 OpenAI,为微软打开了大门,让微软带着巨额资金进入。看到 OpenAI 已成为生产级生成 AI 的主导力量,马斯克于 2023 年 3 月迅速成立了 xAI,从那时起,这家初创公司一直在努力筹集资金并寻找 GPU 分配,以建立具有竞争力的基础设施,与 OpenAI/Microsoft、Google、Amazon Web Services、Anthropic 等公司竞争。

筹集资金是比较容易的部分。

5 月底,Andreessen Horowitz、Sequoia Capital、Fidelity Management、Lightspeed Venture Partners、Tribe Capital、Valor Equity Partners、Vy Capital 和 Kingdom Holding(沙特王室控股公司)都为 xAI 投入了 60 亿美元的 B 轮融资,使其总融资额达到 64 亿美元。这是一个好的开始,幸运的是,马斯克从特斯拉获得了 450 亿美元的薪酬待遇,因此他可以随时增加 xAI GPU 资金。(他可能明智地将其中一部分资金留作特斯拉、X 和 SpaceX 的 GPU 分配。)

从某种程度上说,特斯拉将一次性支付马斯克 2022 年 4 月收购 X 所需的 440 亿美元,外加 10 亿美元。这相当于一个拥有24,000个GPU的集群,不过是些零钱罢了。公平地说,特斯拉已经撼动了汽车行业,2023 年的销售额为 968 亿美元,其中 150 亿美元为净收入,现金为 291 亿美元。但即使在这个新镀金时代,这也是一份令人咋舌的薪酬待遇。但是,马斯克有大事要做,他的董事会愿意牺牲特斯拉的现金,甚至更多,只为让他高兴。

不过,按照同样的逻辑,我们愿意以 6500 亿美元收购摩根大通,资金来自美国银行、阿布扎比、美联储以及我们能找到的任何地方,明年的薪水将比收购成本高出一点点——6750 亿美元就够了。然后我们可以把它的名字改成 TPMorgan Caught,还清贷款后还有 250 亿美元可以玩。

好,现在我们说回正题。

这给我们带来了 xAI 巨大的计算、存储和网络需求。Grok-0 大型语言模型涵盖 330 亿个参数,在 xAI 成立几周后,于 2023 年 8 月进行了训练。Grok-1 具有用于提示的对话式 AI,涵盖 3140 亿个参数,于 2023 年 11 月上市,该模型于 2024 年 3 月开源,就在 Grok-1.5 模型问世前不久,与 Grok-1 相比,Grok-1 具有更大的上下文窗口和更好的认知测试平均成绩。

如你所见,Grok-1.5 在智能方面与 Google 、OpenAI 和 Anthropic 的竞争对手相比稍逊一筹。

Grok-2 模型将于 8 月推出,该模型原定在 24,000 个 Nvidia H100 GPU 上进行训练,据报道,该模型正在 Oracle 的云基础设施上进行训练。(Oracle 已经与 OpenAI 签署协议,让其吸收 xAI 未使用的任何 GPU 容量。)

马斯克在多条推文中表示,Grok 3 将于今年年底问世,需要 10 万个 Nvidia H100 GPU 集群进行训练,并将与 OpenAI 和微软正在开发的未来 GPT-5 模型不相上下。Oracle 和 xAI 正在努力达成 GPU 容量协议,当三周前传闻的 100 亿美元 GPU 集群交易破裂时,马斯克迅速转变策略,在田纳西州孟菲斯南部的一家旧伊莱克斯工厂建造了一个“计算超级工厂”,以容纳他自己的 10 万个 GPU 集群。如果你住在孟菲斯,事情会变得有点疯狂,因为 xAI 希望获得 150 兆瓦的电力。

据彭博社报道,目前工厂的配电容量为 8 兆瓦,未来几个月内可能增加到 50 兆瓦。若要超过这个数字,则需要田纳西流域管理局提供大量文件。

顺便说一句,如果你在孟菲斯有一台大型超级计算机,你绝对不可能给它起任何昵称,除非它与猫王有关。在未来几年里,你可以用猫王的不同阶段来命名连续的机器。你可能想把这台机器命名为“猎犬”,这是猫王早期摇滚阶段的产物。不过,如果马斯克不能在 12 月之前获得全部 10 万台 H100 的配额(除非 Nvidia 愿意提供帮助,否则这似乎不太可能),那么它可能会被称为“伤心旅馆”。

上周,当我们因家庭医疗紧急情况外出时(我们最近也遇到过这种情况),马斯克发表了以下言论:

因此,它或许会被称为 SuperCluster,这与 Meta Platforms 购买而非自行开发 AI 训练机器时使用的术语相同。(我们更喜欢“猎犬”这个名字。)

我们认为 100,000 个 GPU 数量只是一个愿景,也许到 12 月 xAI 只会有 25,000 个 GPU,在这种情况下它仍然能够训练非常大的模型。我们看到的一些报告表明,孟菲斯超级集群要到 2025 年晚些时候才会完全扩展,我们认为这是有可能的。

我们可以从 Supermicro 创始人兼首席执行官 Charles Liang 的 xitts 中推断出 Supermicro 正在构建 xAI 在孟菲斯数据中心部署的水冷机器:

目前尚不清楚服务器基础设施的具体信息,但我们强烈怀疑这台机器将基于八路 HGX GPU 板,并且将是 Supermicro 的机架式系统,其灵感来自 Nvidia 的 SuperPOD 设置,但有自己的工程调整和较低的价格。使用八路 HGX 板,总共可实现 12,500 个节点,后端网络中有 100,000 个 GPU 和 100,000 个端点,前端网络中有 12,500 个端点,用于访问集群中的数据和管理节点。

瞻博网络首席执行官Rami Rahim 也谈到了参与孟菲斯超级集群的情况:

如果你刚刚看到这些推文,你可能会得出结论,Juniper 以某种方式赢得了孟菲斯超级集群的网络交易,考虑到 Arista Networks 和 Nvidia 本身在 AI 集群网络方面的努力,这确实令人惊讶。我们还没有看到 Arista 关于这个系统的任何消息,但在 5 月 22 日,当 Nvidia 正在讨论其 2025 财年第一季度的财务业绩时,首席财务官 Colette Kress 说道:

“第一季度,我们开始交付全新 Spectrum-X 以太网网络解决方案,该解决方案针对 AI 进行了彻底优化。它包括我们的 Spectrum-4 交换机、BlueField-3 DPU 和新软件技术,以克服以太网 AI 的挑战,为 AI 处理提供比传统以太网高 1.6 倍的网络性能。

Spectrum-X 的销量正在不断增长,客户包括多个客户,其中包括一个拥有 100,000 个 GPU 的大型集群。Spectrum-X 为 Nvidia 网络开辟了一个全新的市场,并使仅使用以太网的数据中心能够容纳大规模 AI。我们预计 Spectrum-X 的产品线将在一年内跃升至数十亿美元。”

让我们面对现实吧,世界上目前没有那么多 100,000 GPU 交易正在进行中,而且我们现在看到马斯克对该系统的评价,我们非常肯定 Nvidia 在 5 月份的声明中谈论的是孟菲斯超级集群。因此我们认为 Nvidia 拥有 Spectrum-X 设备的后端(或东西)网络部分,而 Juniper 拥有前端(或南北)网络。而 Arista 则表示没有。

我们还没有看到有关孟菲斯超级集群将使用何种存储的任何信息。它可能是基于 Supermicro 的闪存和磁盘混合的原始存储阵列,运行任意数量的文件系统,也可能是 Vast Data 或 Pure Storage 的全闪存阵列。如果你拿枪指着我们的头,我们会大胆地说 Vast Data 参与了这笔交易,获得了大量存储,但这只是基于该公司过去两年在 HPC 和 AI 领域大型存储阵列的发展势头的猜测。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。

0 阅读:0

袁遗说科技

简介:感谢大家的关注