通向AGI的钥匙：10万H100超级AI算力集群

如火如荼的AI竞争中，「算力之战」同样热火朝天。

包括但不限于OpenAI、微软、xAI和Meta在内的多个头部公司都在争相建立超过10万卡的GPU集群，在这个规模上，仅仅是服务器的成本就超过40亿美元，还要受到数据中心容量和电力不足等多项因素的限制。

10万卡H100集群有多难搭

算力瓶颈的背后，有着“能源”和“工程能力”这两座大山。

一个由10万块H100构成的集群所需的功率约为150MW。而迄今为止最大的国家超级计算机El Capitan只需要30MW的功率，只有其1/5。

这150MW具体可以分为H100 Server内部的功耗，以及H100 Server外部的配套设备功耗。

H100 Server内部，每块GPU自身功耗约为700W，为每块GPU配套的CPU、NIC（Network Interface Card）、PSU（Power Supply Units）大约需要575W的功耗。

H100 Server外部，AI集群还囊括了存储服务器、网络交换机、光收发器等许多其他设备，约占总功耗的10%。

目前世界上还没有任何一座数据中心有能力部署150MW的AI集群。X.AI 甚至将田纳西州孟菲斯市的一家旧工厂改造成了数据中心。

这些AI集群通过光通信进行互联，而光通信的成本与传输距离成正比。

多模SR和AOC收发器的最长传输距离约为50米。长距离单模DR和FR收发器的传输距离为500米~2000米，但其成本是前者的2.5倍。园区级800G相干光收发器的传输距离可以超过2000米，但成本要高出10倍以上。

较小规模的H100集群的通常做法是，通过1-2层交换机，把所有GPU以400G多模光收发器进行互联。

对于大规模H100集群，需要增加更多层交换机，光学设备的成本也会变得非常昂贵。不同的网络拓扑结构会带来截然不同的资本开支。

解锁AGI未来的钥匙

自GPT-4发布以来，全球AI能力的发展势头有放缓的迹象。

但这并不意味着Scaling Law失效，也不是因为训练数据不够，而是结结实实的遇到了算力瓶颈。

具体来说，GPT-4的训练算力约2e25 FLOP，近期发布的几个大模型比如Google的Gemini Ultra、Nvidia Nemotron 340B、以及Meta Llama3 405B背后使用的训练算力大致与GPT-4相当，没有质的提升，因此无法解锁模型的新能力。

为了成为AI时代的造物主，OpenAI/微软、xAI、Meta等科技巨头都在竞相建立一个由10万块H100构成的超级AI算力集群。

要想实现这个目标，光有钱是远远不够的，这里面涉及到能源挑战、网络拓扑结构、可靠性保障、并行方案、机架布局等众多技术难题。

这些技术难题是人类通向AGI路上的阻碍，同时也孕育着巨大的投资机会。

免责声明：

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证，并在此声明不承担信息可能产生的任何责任、任何后果。

2、本号非商业、非营利性，转载的内容并不代表赞同其观点和对其真实性负责，也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误，负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网，所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品，请与我们取得联系，我们会及时修改或删除。

幸福双城资讯网