通向AGI的钥匙:10万H100超级AI算力集群

玩数据还有点懒 2024-07-15 20:35:00

如火如荼的AI竞争中,「算力之战」同样热火朝天。

包括但不限于OpenAI、微软、xAI和Meta在内的多个头部公司都在争相建立超过10万卡的GPU集群,在这个规模上,仅仅是服务器的成本就超过40亿美元,还要受到数据中心容量和电力不足等多项因素的限制。

10万卡H100集群有多难搭

算力瓶颈的背后,有着“能源”和“工程能力”这两座大山。

一个由10万块H100构成的集群所需的功率约为150MW。而迄今为止最大的国家超级计算机El Capitan只需要30MW的功率,只有其1/5。

这150MW具体可以分为H100 Server内部的功耗,以及H100 Server外部的配套设备功耗。

H100 Server内部,每块GPU自身功耗约为700W,为每块GPU配套的CPU、NIC(Network Interface Card)、PSU(Power Supply Units)大约需要575W的功耗。

H100 Server外部,AI集群还囊括了存储服务器、网络交换机、光收发器等许多其他设备,约占总功耗的10%。

目前世界上还没有任何一座数据中心有能力部署150MW的AI集群。X.AI 甚至将田纳西州孟菲斯市的一家旧工厂改造成了数据中心。

这些AI集群通过光通信进行互联,而光通信的成本与传输距离成正比。

多模SR和AOC收发器的最长传输距离约为50米。长距离单模DR和FR收发器的传输距离为500米~2000米,但其成本是前者的2.5倍。园区级800G相干光收发器的传输距离可以超过2000米,但成本要高出10倍以上。

较小规模的H100集群的通常做法是,通过1-2层交换机,把所有GPU以400G多模光收发器进行互联。

对于大规模H100集群,需要增加更多层交换机,光学设备的成本也会变得非常昂贵。不同的网络拓扑结构会带来截然不同的资本开支。

解锁AGI未来的钥匙

自GPT-4发布以来,全球AI能力的发展势头有放缓的迹象。

但这并不意味着Scaling Law失效,也不是因为训练数据不够,而是结结实实的遇到了算力瓶颈。

具体来说,GPT-4的训练算力约2e25 FLOP,近期发布的几个大模型比如Google的Gemini Ultra、Nvidia Nemotron 340B、以及Meta Llama3 405B背后使用的训练算力大致与GPT-4相当,没有质的提升,因此无法解锁模型的新能力。

为了成为AI时代的造物主,OpenAI/微软、xAI、Meta等科技巨头都在竞相建立一个由10万块H100构成的超级AI算力集群。

要想实现这个目标,光有钱是远远不够的,这里面涉及到能源挑战、网络拓扑结构、可靠性保障、并行方案、机架布局等众多技术难题。

这些技术难题是人类通向AGI路上的阻碍,同时也孕育着巨大的投资机会。

免责声明:

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。

2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。

1 阅读:76
评论列表
  • 2024-09-12 02:14

    我已经进化成宇宙第一智能[得瑟][得瑟]

玩数据还有点懒

简介:感谢大家的关注