破解模型之需:电信市场需要怎样的AI服务器(附图)

胡媛看科技 2024-09-10 18:54:48

据赛迪数据,2023年,中国服务器市场销售额达到1764.3亿元,同比增长6.8%。未来三年,预计中国服务器市场销售额将以7.9%的复合增长率继续增长,到2026年市场规模将达到2219.8亿元。

今年以来,运营商开展了大规模的智算中心建设,并开展几次重要的算力服务器集采,目前,服务器成为运营商单一集采的最大品类。随着AI应用更加深入,运营商算力服务器市场需求、招标规模和性能要求不断提高,市场竞争将更加激烈。

大模型需要怎样的算力服务器?

数据显示,2018年发布的GPT-1参数量为117亿,2024年发布的GPT-4参数量高达1.68万亿,6年间,模型参数提升超140倍。相关机构预测,2024年全球将生成159.2ZB数据,2028年将达到384.6ZB数据,复合增长率为24.4%。大模型参数量激增,全球数据量持续爆发。

中移动信息技术有限公司资深专家董少杰在一个大会的服务器分论坛上表示,随着数据爆发式增长,现有存算一体架构的服务器配置复杂多样、无法动态扩容、存算资源利用率低、维护繁琐复杂等问题越发凸显,亟需探索一种新的存算架构,将存储资源集中管理,实现服务器和存储的多对多连接,减少服务器模型配置,提升IT设备的使用效率。

“大模型落地过程复杂,涉及分布式并行计算、算力调度、存储分配、大规模组网等多种先进技术和流程支持。”新华三集团智慧计算产品线高级产品经理冯良磊表示,大模型发展带来了对超大规模算力、高性能存储、超大规模算力调度及管理、绿色节能等技术能力的需求。

英维克液冷事业部产品总监黄强指出,算力中心前期阶段,规模处于试点型、体量小,服务器采购单一,配套液冷上是服务器厂商整体打包交付。而算力中心当前阶段,规模属于万卡集群、体量大,服务器采购要多型号、多厂家,配套液冷需要专业液冷供应商提供,来解决其解耦交付痛点。

当前,智算方案里所面对的典型市场需求和场景分两类:一是运营型,面向政府,以及运营商为代表的央国企投资的算力中心,其需求特点包括起步算力规模已提升至千P(约300卡)量级;出租算力服务;看中整体全栈方案能力,在算力基础设施之上,还包括与AI业务使用,体验强相关的软件平台能力,以及支撑算力服务的运营能力。

二是自建型,面向企业、教育、医疗、金融等用户,其需求特点包括起步算力规模较小,往往小于百卡规模;自用算力资源,多用AI研发或应用落地;方案需求相对简洁,多聚焦在服务器、存储、网络加算力调度管理软件。

随着大模型等人工智能技术的发展,引发算力需求爆发式增长,算力布局不断加速。数据显示,算力、存力、运力如果做好高效协同,一个AI算力中心的效率可能会提升50%。

江波龙企业级存储事业部高级市场总监曹浔峰指出,当前,AI应用复杂度快速发展与存储相关硬件不匹配,AI应用存储瓶颈在缓存。AI应用数据存储受限于通道带宽速率,性能瓶颈不在落地存储,而GPU缓存(HBM)和CPU RDIMM将成为瓶颈。

对于服务器厂商而言,当其身量已不再局限于提供单一硬件产品时,而是综合性解决方案,这些解决方案可能包括服务器、存储、网络、安全等方面,同时,还需要针对下游客户的具体需求,提供定制方案。服务器作为算力资源的重要载体,也正成为企业构建万卡集群的核心一环。

下一代AI服务器如何演进?

2023年,中国大模型行业形成“百模大战”的竞争格局,大模型训练和推理过程消耗海量算力,带动智能算力需求爆发式地增长,也带动着服务器等算力供给设备的持续发展。2024年上半年,中国智算中心建设如火如荼,也在不断推动着服务器厂商持续推出加速计算服务器新品。

据《通信产业报》研究组监测,电信市场对服务器招标分多方面,不同运营商服务器类别略有不同,主要包括PC服务器、人工智能服务器、计算型服务器、均衡型服务器、存储型服务器、通用服务器、云服务器、机架式服务器等。其中,三大运营商相继启动智算中心服务器采购活动,加速布局AI智算能力,对AI服务器需求剧增。

今年4月,中国移动发布2024年至2025年新型智算中心采购招标公告,此次采购包含AI服务器7994台,成为有史以来国内最大规模的AI服务器集采。加上此前中国移动2023年至2024年新型智算中心(试验网)集采项目,12个标包对应AI训练服务器采购量总计达到2454台,中国移动这两次AI服务器集采规模合计超万台。

除了中国移动之外,其他两大运营商此前也开启了AI服务器大规模采购。中国联通在今年3月启动2024年人工智能服务器集采,其中,人工智能服务器采购总规模为2503台。中国电信在去年10月也采购了4175台AI服务器。

天翼云科技有限公司研发专家白秀杨表示,随着人工智能技术的不断进步和应用领域的广泛扩展,电信市场对AI服务器的需求日益增长,电信市场的下一代AI服务器面临着多方面的演进与挑战,主要体现在兼容、线缆背板、集中供电、液冷散热等方面。

在兼容方面,随着人工智能技术的不断发展,AI服务器将更加注重异构计算能力,需要支持多种不同的硬件和软件平台,以满足不同应用场景的需求。例如,支持不同类型的GPU、CPU等加速卡,同时,还需要支持多种深度学习框架和算法。因此,下一代AI服务器需要具备更好的兼容性,以适应不断变化的技术环境。

在线缆背板上,随着服务器性能的不断提升,线缆背板的带宽和速度也需要不断提高,以满足数据传输的需求。此外,线缆背板的密度也需要不断增加,以支持更多的设备连接。因此,下一代AI服务器需要采用更高速、更密集的线缆背板技术。

在集中供电方面,随着服务器性能的不断提升,功耗也在不断增加,因此需要采用更高效的集中供电技术,以提高能源利用效率。此外,集中供电技术还需要具备更好的可靠性和可扩展性,以满足不断增长的服务器需求。

在液冷散热方面,随着服务器性能的不断提升,散热问题也变得越来越突出。传统的风冷散热技术已经无法满足服务器的散热需求,因此,液冷散热技术成为了下一代AI服务器的必然选择,液冷散热技术具有更高的散热效率和更低的噪音水平,同时,还可以降低服务器的能耗。然而,液冷散热技术也面临着冷却液的泄漏和维护等一些挑战。

能耗是持续挑战

2024年7月23日,为推动数据中心绿色低碳发展、支撑完成“十四五”能耗强度降低约束性指标,国家发展改革委等四部门联合发布《数据中心绿色低碳发展专项行动计划》(以下简称《行动计划》)。其中,《行动计划》对于服务器产品的能效方面和节能水平上提出了更高的要求,服务器产品在追求“智算”,提升计算力的同时,也在密切关注节能降碳的“绿算”发展。

中国移动信息技术中心规划战略部总经理张春认为,数据中心资源利用率面临严峻挑战。目前的功耗发展趋势已经逐渐超出风冷散热的覆盖范围,急需一种新的冷却技术。此外,功耗的增加还导致机柜空间剩余现象越发凸显。

以数据中心风冷单机架功率5~8KW计算,单机架服务器一般可容纳台数7~10台。随着单台设备功耗不断提高,单机架服务器数量将进一步减少,呈现“功耗受损、空间剩余”现象,急需提高机柜功率密度,节约机架和机房面积资源。“在综合评估初始投资、可维护性、PUE效果,以及产业成熟度等方面因素后,现阶段服务器主要选择冷板式液冷进行试点实践。”张春强调。

随着液冷机房侧的基础设施和液冷服务器生态的不断完善,在新建机房定制化高密服务器可以有效提升功率密度,液冷散热的优势也更加明显。如采用1U服务器高密度的服务器提升机柜密度可以更好体现液冷优势,同时,从产品易插拔维护和部署效率考量,定制化高密服务器三总线盲插方案可实现部署周期由2~3个月缩短到3~5天,可以解决人工连线耗时长、故障率高的问题。

当前,国家将数字基础设施建设上升到战略层面,全国一体化算力网络建设的布局拉开。随着生成式AI的浪潮袭来,通用型服务器已难以满足其带来的日益增长的算力需求,面向AI场景的专用服务器也应运而生,围绕计算能耗的服务器液冷等技术创新日渐成熟,也在驱动客户主动布局该类方案。

0 阅读:1

胡媛看科技

简介:感谢大家的关注