万卡集群：为什么？是什么？怎么建？

中国电信于今年3月宣布，天翼云上海临港国产万卡算力池正式启用；中国移动年内将投产3个近两万卡超大规模单体智算中心和12个区域智算中心，广泛升级1500个边缘节点，训/推算力资源配比上升至1:10；中国联通上海临港国际云数据中心在今年内将建成中国联通首个万卡集群……运营商作为国家算力基础设施建设的中坚力量，正加速推进超万卡集群智算中心的建设。

那么，万卡集群在智算中心起到什么作用？建设万卡集群面临哪些挑战？

为什么：面临三个挑战

智能计算中心是提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施，模型、数据和算力是智算中心的三大关键要素。

中国移动云能力中心计划建设部总经理助理牛红韦华在接受《通信产业报》全媒体记者采访时表示，随着模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，万卡集群成为这一轮大模型基建军备竞赛的标配，万卡集群将有助于压缩大模型训练时间，实现模型能力的快速迭代。

万卡集群是指由一万张及以上的加速卡（如GPU、TPU或其他专用AI加速芯片）组成的高性能计算系统，用以训练基础大模型。这种集群充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术，将底层基础设施整合成为一台“超级计算机”，可支持千亿级甚至万亿级参数规模的大模型训练，有助于大幅压缩大模型训练时间，以实现模型能力的快速迭代。

以OpenAI训练GPT模型为例，GPT-4需要使用2.5万张英伟达A100 GPU，并行训练100天的左右时间，在此期间要处理13万亿个token，并且涉及大约1.76万亿个参数。在不久的将来，开发大模型所需的算力将实现指数级的增长，对于即将亮相的GPT-5，预计该模型的训练需要部署20万~30万个H100 GPU，耗时130~200 天。“万卡甚至超万卡智算集群将会成为未来智算中心的主要演进趋势，如何建设超万卡集群、如何充分发挥超万卡集群的性能与效率也将会是未来核心技术突破的重点。”牛红韦华表示。

牛红韦华认为，万卡集群建设对智算中心的算力使用效率、数据中心机房先进性、大规模集群建设运维等三个方面均提出了新的挑战。

一是极致算力使用效率的挑战。针对大模型分布式训练场景，集群规模的线性提升无法直接带来集群有效算力的线性提升，卡间和节点间的互联网络、软件和硬件的适配调优是追求集群极致有效算力的关键挑战。我们把集群有效算力分解为“GPU利用率”和“集群线性加速比”两个重要指标，其中“GPU利用率”受限于芯片架构和制程、内存和I/O访问瓶颈、卡间互联带宽和拓扑、芯片功耗等因素，“集群线性加速比”则取决于节点间的通信能力、并行训练框架、资源调度等因素。在万卡集群中，需要运用系统工程方法，通过对万卡集群网络的精细化设计、软硬件全栈整合优化，综合提升集群算力使用效率。

二是高能耗高密度机房设计的挑战。新建智算中心的单机柜功率从原先的7~8KW上升至40KW甚至60KW，单机柜重量达1~2吨，新建智算机房要以算力为中心进行设计，应规模采用绿色低碳能源、高功率机架和液冷技术，数据中心机房要实现从芯片到节点、模组到柜级/机房级等多级通路的冷量按需供给，同时实现水电隔离、漏液关断等措施，保障系统安全可靠。

三是万卡集群建设运维的挑战。万卡集群由数千台智算服务器+数千台交换机+数千台存储设备以及数万根光纤/数万颗光模块构成，训练任务涉及千万颗元器件满负荷高速运转，基于固有的元器件硬件失效率和海量的器件规模带来硬件故障频发，涉及到的软硬件故障模式繁杂，故障管理挑战巨大。业界典型硬件故障定位需1~2天，复杂应用类故障定位可能长达数十天，万卡集群急需支持更有效、更快速、影响更小的自动断点续训功能。

是什么：进展与趋势

当前，在国际上，OpenAI、Google、Meta等科技巨头，都争相部署万卡集群，用来支撑其在基座大模型、智能算法研发及生态服务等方面的技术创新。在国内，通信运营商、头部互联网、大型AI研发企业等均在万卡集群的建设和使用过程中不断推动技术革新。

第一，头部互联网企业基于万卡集群加速技术服务创新，字节跳动、阿里巴巴、百度为代表的互联网公司在积极推进万卡集群的建设。其中，字节跳动搭建了一个12288卡Ampere架构训练集群，研发MegaScale生产系统用于训练大语言模型。

第二，大型AI研发企业基于万卡集群加速模型研发，如科大讯飞2023年建设成首个支持大模型训练的万卡集群算力平台“飞星一号”。

第三，运营商作为算力基础设施建设的中坚力量，加速国家一体化算力能力构建，支撑社会AI+转型。目前，中国移动已投产呼和浩特万卡智算中心，共部署了近2500台智算服务器，单体算力规模可达6.7EFLOPS，同时正在规划建设2个超万卡国产算力集群。

“随着数据规模的持续扩大、集群能力的不断增强，以及大模型应用的日益丰富，对新型智算底座的升级提出了更高的要求。”牛红韦华指出，逐步驱动集群规模从万卡到超万卡甚至是十万卡级演进，未来智算集群需进一步解决超大规模算力组网、集群效能提升、多元异构算力生态等方面都是万卡集群未来可预见的发展趋势。

首先，解决超大规模算力组网的问题，通过引入新型芯片设计、超节点技术、跨节点互联网络技术等通过提升节点算力能力、突破物理组网限制等实现超大算力集群，来满足万亿、数十万亿大模型的训练需要。

其次，不断提升集群效能，万卡集群下模型规模和数据集复杂度提升，需要在软硬件、算法、网络等方面持续创新，聚焦于自动化、跨平台支持、大规模模型训练、跨集群训练、边缘训推等方面不断优化完善，实现高效、可靠和快速的深度学习模型训练，提高模型的准确性和训练效率，降低用户开发大模型的使用门槛和资源开销，提供更加高效、易用的模型训练工具提升集群算力能效比。

最后，强化多元异构算力生态，通过打造融合开放的大算力生态，推进一云多芯多样算力，打破AI芯片生态竖井，实现智算应用在更多GPU芯片的快速迁移和分布式异构混训。

怎么建：五大技术是关键

在牛红韦华看来，万卡集群的搭建不是简简单单的算力堆叠，要让数万张GPU卡像一台“超级计算机”一样高效运转，万卡集群也面临着极致算力使用效率、海量数据处理、超大规模互联、集群高可用和易运维、高能耗下的绿色发展等多方面的挑战。建设一个万卡集群也必须从以下五大方面的关键技术出发。

一是新型智算中心机房设计。针对智算设备高密度高能耗的典型特点，智算中心机房需具备高效制冷、弹性扩展、敏捷部署、绿色低碳等特征，并实现智能化运维管理，业界广泛采用液冷、弹性供电、AI节能等关键技术来支持智算中心建设。

二是集群高能效计算技术。随着大模型向万亿参数级演进，特别是在超长序列输入和MoE架构的应用背景下，高能效计算能力越来越重要，涉及从单芯片能力提升、超越单机8卡的超节点技术、服务器内卡间通信效率提升等多方面系统推进。

三是高性能融合存储技术。万卡集群大模型对于存储有高吞吐、高性能、高可靠、低时延等要求，存储系统需支持超3000节点扩展规模，具备10TB/s级聚合吞吐带宽、亿级IOPS，来满足大模型ckpt恢复时长从分钟级提升到秒级，同步考虑引入多协议融合和自动分级存储技术，来提升智算数据处理效率。

四是大规模机间高可靠网络技术。智算中心关键在于引入参数面用于计算节点之间的参数交换，目前业界成熟的参数面包括IB和RoCE两种技术，网络保障的关键目标为大规模、大带宽、低时延、高可靠，不断提升的硬件设备能力、流控设计、端网融合技术、高效网络运维等都是智算中心网络发展的关键点。

五是高容错高效能平台技术。大集群不等于大算力，大模型训练还需要高效的算力调度来发挥算力平台的效能，需构建面向AI任务的多维调度、断点续训的高容错保障、面向AI加速服务等能力，满足AI任务高效运行。

目前，中国移动已经完成万卡级智算中心建设，正推进超万卡集群演进落地。在智算中心基础设施中广泛开展冷板式液冷、智能母线、AI节能等关键技术应用，并基于大云磐石智算底座、大云震泽智算服务平台等核心能力实现计算、存储、网络等资源的高效管控和灵活运营，可面向AI任务提供万卡并行训练的服务能力，打造行业领先的智算中心样板间。

幸福双城资讯网

胡媛看科技