甲骨文发布顶级AI计算集群,搭载13万块NVIDIAGPU

玩数据还有点懒 2024-09-18 22:32:34

云计算与数据库服务提供商甲骨文公司宣布其最新研发的GPU计算集群系列即将通过甲骨文云基础设施为全球用户提供AI训练能力。这一系列中的旗舰产品集成了超过13万块NVIDIA B200 GPU加速卡。

Oracle推出首个Zettascale云计算集群

Oracle的zettascale AI集群基于Nvidia公司的Blackwell B200图形处理单元。客户在配置131,072 个B200芯片时,集群可以达到其2.4 zettaflop 的最高速度,这是Oracle计划支持的最大GPU数量。这一数量是世界上最快的超级计算机 —— 美国能源部用于科学研究的Frontier系统中图形卡数量的三倍多。

B200 芯片由两个独立的计算模块或芯片组成,采用四纳米制造工艺制造。它们通过一个可以每秒传输高达10 terabytes数据的互连连接在一起。B200还配备了192GB的HBM3e内存,这是一种高速 RAM,使其总晶体管数量达到 2080 亿。该芯片的一项特性是所谓的微缩能力。

AI 模型以浮点数的形式处理信息,这些数据单位包含4到32位的信息。数据单位越小,处理所需的时间就越少。B200的微缩能力可以将一些浮点数压缩成更小的单位,从而加快计算速度。

Oracle的B200驱动的AI集群将支持两种网络协议:InfiniBand和RoCEv2,这是一种增强版的以太网。这两种技术都包含所谓的内核绕过功能,允许网络流量绕过通常必须经过的一些组件,以便更快地到达目的地。这种安排使数据能够更快地到达GPU,从而加快处理速度。

Oracle与Nvidia联手打造最强AI集群

近日,Oracle推出了一个新的集群产品,可通过Oracle云基础设施(OCI)进行AI训练。据悉,这一集群将基于Nvidia即将上市的Blackwell GPU,提供高达2.4 ZettaFLOPS的AI性能,一举超过埃隆·马斯克的AI集群性能,成为目前全球最强AI集群。

Oracle称,新的计算集群将基于Nvidia的Hopper或Blackwell GPU,主要面向HPC与AI应用,集群内部通过不同的网络技术进行组网,包括Nvidia的ConnectX-7 NIC和ConnectX-8 SuperNIC,内部协议使用RoCE v2或基于Nvidia的Quantum-2 InfiniBand网络,根据不同性能需求可以选择不同的HPC存储,整个集群配置包括:

配备H100 GPU的OCI超级群,最多可支持16384个GPU,提供65 FP8/INT8 exa FLOPS的峰值性能和13 Pb/s的聚合网络吞吐性能;基于H200 GPU构建的OCI超级集群将于今年底推出,最高可扩展到65536个GPU,最高260 FP8/INT8 exaFLOPS和52 Pb/s的网络聚合吞吐性能;最强大的OCI集群将基于Nvidia Blackwell B200 GPU构建,最高可扩展到131072个GPU,提供高达2.4 FP8/INT8 zettaFLOPS的峰值性能。

据Oracle表示,基于顶配B200的OCI超级集群的GPU数量是Frontier超级计算机(使用37888个AMD Instinct MI250X GPU)的三倍多,是其他超大规模计算系统的六倍。Oracle同时还透露,已经有多家企业从OCI超级集群获得收益,包括WideLabs和Zoom都正利用OCI的高性能AI基础设施来加速他们的AI开发。

据悉,即将推出的OCI超级集群将使用Nvidia的GB200 NVL72液冷机柜,每机柜配置72个GPU芯片,并同属一个NVLink域,通过高达129.6 TB/s的内部带宽实现GPU间互连。据Oracle透露,Nvidia的Blackwell GPU将于2025年上半年批量供货(因为今年Blackwell的供应有限),但Oracle并未透露OCI会何时完成Blackwell集群构建并正式对外商用。

免责声明:

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。

2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。

0 阅读:64

玩数据还有点懒

简介:感谢大家的关注