唯有开源开放,才能定义智算时代

科技正能量 2024-10-28 20:54:13

在计算架构发展的进程中,开放与封闭的竞争从未停歇。但历史的长卷告诉我们,开放的力量总是能够打破封闭的束缚,引领行业走向更大的繁荣。

在信息化早期,大型机凭借强大的计算力和稳定性,坐上计算架构的王座。但因其封闭性,被RISC系统以简洁的指令集和开放的架构,一举打破了大型机的垄断,为计算机技术的进一步发展开辟了新的道路。

同样在服务器操作系统领域,起初都是Windows等商业操作系统作为市场的主导,但Linux出现之后,以其开源、开放和可定制的特性,迅速激发了创新活力,随着越来越多的企业和开发者加入Linux社区,Linux也逐渐建立了自己的统治地位。

当我们走进智算时代,大模型的发展要匹配异构算力架构,而异构就代表了复杂多元的生态,唯有开放才是发挥智算效率的最佳路径。这也是浪潮信息在发布元脑®服务器第八代算力平台时,始终强调开放路线的主要原因。

异构算力的体系构建,“开放”是最核心的话题

对社会文明来说,人工智能已经不仅仅是一项简单的技术革命,它是一个新时代的更迭。就如同工业时代之于农业时代一样,会带来天翻地覆的变革,影响人类社会未来百年的进程。

浪潮信息高级副总裁刘军

浪潮信息高级副总裁刘军说,“如果把AI产业看做一座浮在海面的冰山,当前的技术创新只是1/10的水上部分,产业应用是9/10的水下部分还没有完全显现。中国则是AI应用发展的天然沃土,会为AI提供最丰富的应用场景和最广大的应用空间。”

确如此言,我们已经看到,在街头巷口,智能交通系统以精准的算法控制着车辆的流动,减少拥堵;在田间地头,实时监测农田的土壤湿度、温度等数据,让农民不再靠天吃饭;在校园课堂,人工智能技术正为学生提供个性化的学习方案,帮助老师更有效的传递知识……

在千行百业,无数个场景都在探索智能化应用的背景下,AI的应用领域逐渐增多,市场规模的不断扩大,当然也同时带来了对AI算力的巨大需求。

可惜的是,当前传统企业的算力部署存在明显的错位现象,大模型所需要的算力是异构算力架构,是融合了通用算力、高性能算力和AI算力的混合算力架构,这与企业传统ICT架构严重不符。传统ICT架构尽管成熟,但体系生态封闭,并不利于算力效能的发挥。

而根据IDC数据预测,2027年中国智能算力规模将达到117EFlops,是2024年2.3倍,增速将达通用算力2倍及以上,AI算力的需求缺口仍将持续扩大。这意味着在大模型时代,要发挥算力的最大价值,迈向多元异构计算体系是必由之路。

因此,刘军指出,异构算力的体系构建,“开放”是一个最核心的话题。“异构算力体系的核心优势就在于能够充分发挥各种计算设备的优势,提高智算效率。如果体系不够开放,企业会面对更多的兼容性和集成性问题,不仅会增加开发的成本和难度,还会导致不同计算硬件的性能无法充分发挥,从而降低了应用的性能和效率。同时在安全性上,不够开放也意味着信息交互的复杂性和不确定性增加,增加系统安全和稳定性的风险。”

浪潮信息、信通院、Intel、AMD、阿里云、国家新能源汽车技术创新中心、金山云代表共同发布

唯有“开放”,才能发挥异构算力最大的效能!

算力不仅来源于芯片,更来源于系统

钱学森的《系统论》认为:系统是由一些相互关联、相互作用、相互影响的组织部分构成并具有某些功能的整体。从系统的角度来看,如果把系统分解为部分,单独研究一个部分,就算把每个部分都研究清楚了,也回答不了系统整体性问题。

显然,《系统论》的理念很好的表达了计算机架构的运行逻辑:整个计算机生态是一个完整的系统,它的每一个组成部分都应该协同发展,单独某一项技术如芯片技术的飞跃,并不能带来整个计算机系统的提升。

浪潮信息服务器产品线总经理赵帅的理念与《系统论》不谋而合,他认为,“算力不仅来源于芯片,更来源于系统。”

而算力效率则代表了系统能力的一部分,“浪潮信息在持续升级融合架构技术,打破以芯片为核心的单机系统设计思路,构建大规模可扩展的AI算力系统为出发点、可全面实现资源池化弹性调度的全新架构,各类异构资源按需在线扩展。”

落实到在产品策略上,发挥算力效率的关键,就在于拥抱硬件开放和软件开源。在此基础上,浪潮信息则以“平台化+模块化”的产品设计,持续完善一机多芯产品架构,全面支持OAM/OCM算力的开放标准,让不同算力共享统一平台,降低算力产业创新试错成本和适配成本,也让多元化的应用场景都能方便快捷的适配到贴合的方案。

浪潮信息服务器产品线总经理赵帅

对开放生态最早的探索,源自2019年OAM生态的建立,浪潮信息通过开放的设计理念推动OAM的生态繁荣。截至2024年,AI加速算力单元中90%高端加速卡都采用OAM形态,OAM显然已经成为了事实上标准。

这时候赵帅发现,“如同OAM构建了统一的加速芯片底座,促进了加速算力生态的完善,我们同样需要构建CPU的统一的算力底座,以解决CPU计算的平台效率问题。因此我们在今年也提出了OCM(Open Compute Model)开放算力模组的概念”。

而元脑服务器第八代产品,让浪潮信息首次将这个构想变成了现实。

最新一代元脑服务器NF3290G8,就是全球首个基于开放CPU架构设计的服务器,是浪潮信息对于CPU开放算力模组的最佳实践,以CPU、内存为核心构建最小算力单元,通过标准化它向前的高速/低速互联接口,实现处理器算力模组部件化。

关键的是,它可以同时支持Intel、AMD处理器,全场景算力适配,实现统一算力架构和一机多芯。

浪潮信息服务器产品线规划经理罗剑说,“OCM的核心理念是,原来服务器系统都是以CPU为核心,有了处理器才有系统,但智算时代的场景非常多,不同的业务场景选择的芯片类型也不尽相同,对芯片算力的要求也不一样,这就要一个解耦的架构,把CPU当做一个部件,而算力则以整个系统为核心,根据用户不同的应用场景来自由组合这些关键部件来满足业务要求。”

OCM模组

不难发现,OCM架构的颠覆之处,就在于它不再以CPU为核心来设计产品,而是由场景需求为核心来设计产品,这个系统性的变革首次让需求真正站在了产品之前,是“需求至上”的最大胜利。

开放多元的产品理念,为客户创造最大价值

真金不怕火炼,好产品始终是赢得客户的“金刚钻”。

而秉承着开源开放,多元发展的理念,元脑服务器第八代新品实现了全栈的开源开放,从部件、节点、整机柜到固件,实现了各样产品的快速落地。并在各种算力场景下,给予用户最佳的体验。

如前文提到的基于OCM架构的NF3290G8,整机全面解耦,以CPU、内存为核心构建最小算力单元,标准化高速/低速互联接口,实现处理器算力模组部件化,灵活支持多类型CPU,让不同算力共享统一平台,以用户的场景需求为牵引,提供高效的算力输出。

而在AI算力方面,NF5898G8具有强大的兼容性和卓越的性能,不仅支持Intel Granite Rapids(SP和AP)与 Turin的双CPU平台,还可以兼容符合OCP开放加速规范的多款OAM2.0模组,通过全模块化的设计及极致的系统能效满足算力快速迭代需求,进一步加速算力融合创新,为人工智能领域的发展注入新的动力。

特别要提旗舰机型NF5280G8,它作为一款双路全能高端旗舰机架式服务器可全面兼容Intel和AMD最新的计算平台,以及各种加速卡,在不同业务场景下可以提供最合适的配置平台。同时,还可以采用风冷、液冷两种散热方式,真正做到一款机器,上百种配置搭配,覆盖从通用计算到异构计算,从存储型到IO型,从风冷到液冷等全场景需求。

客观的说,智算时代不仅需要强大的算力,更需要多元的算力以满足复杂、多样的计算场景。以芯片为切入点的传统产品设计思路,势必会被以系统为核心的产品理念所取代。

因而,唯有开源、开放,才能发挥算力最大的价值,唯有开源和开放,才能定义智算时代。

在此意义上,“浪潮信息会一直坚持以应用为导向、以系统为核心的整体战略,解决在AI的算力、算法、数据、生态等各方面遇到的挑战。”赵帅说。

0 阅读:2

科技正能量

简介:相信文字有力量改变世界,坚持科技改变生活的正面角度。