解码异构加速普惠联想聚“三力”拓宽“好用”边界

给科技置顶 2024-10-10 09:52:35

作者:毛烁

“以国家标准提升引领传统产业优化升级,支持企业用数智技术、绿色技术改造提升传统产业。” ——这是在二十届三中全会审议通过的《中共中央关于进一步全面深化改革、推进中国式现代化的决定》中的指示。

在这项《决定》透露出一个重要信息,那就是——曾被我们视为数字化和智能化的简称的“数智”一词,正式出现在官方文件中。显然,国家已经正式强调了数字化与智能化的发展趋势。然而,这一标志性的信息不禁引发思考:推动发展浪潮的关键要素是什么?

趋势——异构智算破解 “算力荒”

9月27日,2024中国算力大会的“异构智算产业生态联盟技术论坛”上,联想集团副总裁、中国基础设施业务群总经理陈振宽在会议伊始就给出了答案。他认为,坚实的算力底座是经济发展的基础。技术迭代也推动着算力的升级,算力内涵更是逐步拓展为集信息计算力、网络运载力、数据存储力于一体的新型生产力。

联想集团副总裁、中国基础设施业务群总经理 陈振宽

不言而喻,随着新趋势的到来,数据成为新的生产要素,算力成为继热力、电力之后新的关键生产力。然而,全球算力资源的增长仍然无法满足人工智能应用对算力的扩大性需求,而“异构智算”正成为破解 “算力荒”难题,是打破AI大模型算力瓶颈的新趋势。

中国科学院院士、北京航空航天大学计算机学院教授钱德沛强调,异构智能计算是应AI之运而生的新型计算系统,所谓异构,就是用最经济、最高效的手段来满足深度学习、大模型训练推理等对计算的需求。

中国科学院院士、北京航空航天大学计算机学院教授 钱德沛

钱德沛坦言,异构智能计算是应AI之运而生的新型计算系统,其崛起开启了未来计算系统变革的大门,不仅是一场技术的革新,更是一次产业生态的重构,需要异构体系结构的创新和软件与硬件的协同、研发满足人工智能算力需求的计算系统,同时要充分理解智算对计算机系统的新要求,以人工智能手段提高计算系统的能力。“行业呼唤更为创新的解决方案与管理模式”。

他指出,异构智算的崛起开启了未来计算系统变革的到来,这不仅是一场技术的革新,更是一次产业生态的重构,不论国际还是本土的众多科技领军企业,正以前所未有的速度推进着这一领域的变革和突破。

作为全球领先的算力基础设施和服务提供商的联想,也在这条“算力拓荒人”的道路上,越走越宽广……

变革——算力从“可用”到“好用”

基于对算力需求不断演进的洞察,陈振宽提出了算力从“可用”到“好用”的双重视角。所谓的“算力可用”,在于通过稳定的软硬件组合,帮助使用者能够搭建大模型并处理大规模的计算任务。这种基础的算力满足了AI技术发展初期的需求,为后续的应用奠定了基础。

随着AI技术的不断演进,算力的作用也从基础支持转向了更为直接的应用支撑。在这一过程中,应用的实际落地成为了释放AI价值的关键一步。这种转变要求算力不仅要“可用”,也必须“好用”。而所谓的“算力好用”,则是指通过从芯片到应用的端到端优化,实现算力效率和性能的大幅提升,以满足日益复杂的应用需求。

然而,从“算力可用”向“算力好用”的关键跃迁过程中,如何从技术积累过渡到价值释放,成为亟待解决的问题。

面对挑战,联想给出了“哲学式”的答案——让“混乱”回归秩序。即统一的纳管异构算力,极致提升智算效率。在这种策略的指引下,联想在完成“全栈AI”战略布局的基础上,全面升级算力战略,持续升级算力战略框架,为客户提供完善的AI基础设施解决方案。

“我们为客户的AI场景提供更加强大的计算力、存储力和运载力。”陈振宽说。

在计算力方面,联想致力于提供更强大、更全面的智能算力产品组合。经过长期的布局,联想已经构建了覆盖大模型训练、推理、训推一体以及边缘推理在内的AI全场景服务器产品组合。

其实,早在2023年的算力大会上,联想就推出了两款性能强大的AI服务器产品——联想问天WA7780 G3 AI大模型训练服务器和联想问天WA5480 G3 AI训推一体服务器。陈振宽透露,今年,联想将进一步地针对中国客户的需求特点,推出适配国产GPU的大模型训练服务器,为AI算力的长远发展提供全面支撑。

在存储力方面,联想构造了全场景、高性能的智能存储底座。针对数据准备,提供大容量、高密度、绿色节能的存储产品。针对不同规模的训练场景,提供适用于小型规模、中小型规模再到超大规模的存储产品,这些产品支持灵活的容量拓展,并具备高性能的特征。针对推理场景,联想也根据客户需求提供了完善的存储产品,为AI推理场景提供了强有力的支持。

在运载力方面,联想打造了多架构、低加持的智能网络架构,包括支持千卡乃至万卡集群的10G和400G的RoCE交换机,以及支持多规模多层网络的IB交换机。同时,联想的数据网络产品支持无阻塞网络的胖树架构,高带宽低延迟的Dragonfl架构,分布式解耦的DDC架构等多种AI网络架构,为不同的AI场景打造高速AI网络方案。

“算力战略的全面升级,让联想更有信心,也更有能力地帮助客户实现算力价值的关键跃迁。”陈振宽如是说。

战略——联想的“纵横”之道

从“一体多端,领跑AI终端”,到“一横五纵,问鼎AI基础设施”,再到“一擎三箭,称雄AI解决方案及服务”。当AI 2.0时代到来,联想持续为算力的发展注入更加强劲的动能。在“联想 智慧中国”的愿景下,联想紧握智能革命战略机遇,通过前瞻性布局,始终致力于为各行各业提供基于新IT架构的全栈AI产品与方案服务,以满足其多样化的业务需求。

在此次论坛期间,联想重磅发布了新一代AI服务器联想问天WA7880a G3、联想AIPod应用部署解决方案两款重磅产品和解决方案。

问天WA7880a G3是新一代的AI训练服务器,旨在提供多样的计算能力、灵活的配置选项以及高效的能源管理。该服务器是国内首个支持OAM 2.0模组的设备,能够与国内主流的OAM GPU厂商产品兼容。在配置上,用户可以选择CPU和GPU之间的单上行或双上行拓扑结构,并能灵活配置PCIe模组。在能效方面,问天WA7880a G3支持CPU和GPU的液态冷却系统,并采用独立的风道设计,致力于助力客户建立绿色、高效的AI计算中心。

联想问天WA7880a G3 AI服务器

据了解,联想AI Pod能够根据企业的特定数据需求提供定制化的算力部署方案,具备三项核心竞争力。第一,AI Pod通过业界先进的NAS数据共享服务ONTAP,为企业在AI应用的部署中提供卓越的数据管理解决方案;第二,AIPod灵活的容器资源调度功能可优化算力与存储力的调度和部署,从而提高资源的利用效率;第三,AIPod结合联想的强大AI基础设施产品和经过验证的架构,为客户提供科学的AI应用部署平台参考。

此外,AIPod还能利用联想的全面服务体系,为企业AI应用的部署提供全方位的支持,保证部署过程的效率和平台的稳定运行。无论是AI智能风控、智慧工厂还是AI医疗等应用场景,AIPod都是理想的解决方案。

联想AIPod应用部署解决方案

WA7880a G3和联想AIPod应用部署解决方案,让联想AI基础设施“一横五纵”的战略版图进一步丰富和完善在基础设施方面,在联想“一横五纵”的战略框架下,通过万全异构智算平台,提供覆盖服务器、存储、数据网络等“五纵”产品能力,确保为客户呈现高效、绿色、可持续的全场景解决方案。

在笔者看来,通过集成先进的功能,WA7880a G3能够为用户提供强大的性能和较低的总拥有成本(TCO)。这使得其在国内乃至全球市场中具有强大的竞争力,特别是在迅速增长的AI市场中。此外,缘于高性能和高效率的硬件是AI技术创新的基础,问天WA7880a G3能够为研究人员和企业提供了强大的计算资源,使他们能够开发和训练更为复杂的AI模型,继而推动在政企、金融、教育、互联网等多个领域的创新。

而联想AIPod的创新之处则在于提供定制化的算力部署,适应企业特有的数据需求。这策略或将导向更多企业采纳个性化AI解决方案,以提升数据处理效率和资源利用率。随着技术进步,预计会出现更多集成优化和服务支持的解决方案,这将进一步促使企业重视基础设施的升级和服务体系的完善,以支持复杂的AI应用实施。

然而,仅仅让算力变得更智能,并不能囊括联想的愿景,联想还致力于在智能化的同时,推动算力的绿色发展。此次论坛上,联想宣布,联想问天液冷技术实现了全面升级,以其屡获殊荣的联想海神液冷技术为基础,匹配中国客户不同需求,并兼容本地处理器和软件生态。

“液冷技术已从‘可选’变成‘必选’”陈振宽如是说。

生态——协同共生 让AI算力更普惠

联想不仅在技术创新方面取得了突破,还重视生态扩展。陈振宽表示,作为全球领先的AI基础设施服务商,联想一直秉承开放合作的态度,积极承担龙头企业的责任。今年4月,联想联合合作伙伴发起并成立了异构智算产业生态联盟,致力于打造万全生态,形成创新驱动、资源共享、应用广泛的产业生态系统,实现从芯片到系统,再到大模型的产业一体化,提供一站式AI解决方案。

论坛的圆桌讨论环节上,第十四届全国政协委员,中国科学院计算技术研究所研究员张云泉建议,首先要通过厂商的合作、用户的合作筛选,并通过联盟推荐,以减少问题的发生、构建更稳定的异构智算算力;其次,加强人才的培养,通过创新大赛、培训等方式解决人才短缺的问题;第三,用生态的方式为大的场景提供定制化的产品和解决方案,经过测试认证后排除其中的障碍、降低客户的风险。

事实上,自联盟成立以来,联盟成员通过共创已经取得了丰硕成果。作为发起单位的联想,更是通过跨领域合作,收获了合作伙伴的好评。

“北京大学自2018年起正式启用校级算力平台,至今已构建了五套计算集群,其中四套由联想提供支持。” 北京大学高性能计算校级公共平台主任工程师樊春坦言,在联想助力下,北京大学“未名一号”“未名教学一号”“未名生科一号”等多套科学计算平台使用率不断攀升,已经累计为学校105个院系师生提供服务,支持发表1700多篇高水平论文,支撑科研项目545个。

北京大学高性能计算校级公共平台主任工程师 樊春

樊春进一步表示说:“我们对联想的存储产品也非常满意,我们的集群基本都采用联想的存储解决方案。”他解释道:“在存储行业中,通常很难找到一个产品在容量、性能(包括带宽和延迟)以及价格方面都能达到完美的平衡,即在所有方面都表现出色。然而,联想在超算领域相关的存储产品确实在这些关键领域表现优异,这也是我们一直选择这个品牌的主要原因。”

联想产品的优异表现,离不开另一位合作伙伴——英特尔。

事实上,英特尔与联想的生态战略不谋而合。“我们希望能从整个行业的视角出发,采用开放的策略来兼容各种算法和工具,部署多样的框架,并能在异构资源上以性能优化的方式进行操作。”英特尔首席云架构师胡明月如是说。

英特尔中国区技术解决方案部 首席云架构师 胡明月

胡明月也提出,期待与联想等厂商合共同努力,以开放的方式推动智能计算生态发展,确保技术和产品广泛应用于各类计算需求中,包括高端数据中心到企业级应用和边缘计算。进一步促进技术共享和优化。

除了硬件的助力,软件的赋能同样不可或缺。联想中国基础设施业务群战略管理总监黄山在圆桌对话中指出,在高效、稳定、可靠性第一的硬件支撑之下,需要通过软件进一步释放多元的算力,这里面生态将发挥重大作用。他说,从上层的工具链、数据的治理,到并行算法的调优上甚至再到模型的社区,都有极大的提升空间,需要生态伙伴一起来协同共创。

好评不断涌现,让联想与合作伙伴通过生态扩展让算力更普惠的决心更加坚定。在此次论坛上,联想发起成立的“异构智算产业生态联盟”更是全面展示了对当前智算产业的思考、实践和一批典型的异构智算产业应用案例。钱德沛、单志广、张云泉、樊春、陈振宽、王传东、梁斌、安静等嘉宾共同发布了《异构智算产业趋势与技术发展白皮书》。

《异构智算产业趋势与技术发展白皮书》发布

“这是联盟在生态建设中的一项重大成果,也是联盟工作的重要里程碑事件。”陈振宽强调,期待更多业界合作伙伴加入异构智算产业联盟,积点滴以成江河之力,共同引领算力发展新潮流。同时,联想也将持续利用AI领域的深厚积累和优势资源,全力支持国家级高质量AI算力项目、行业级垂直模型落地及大企业的混合算力管理。并也致力于为中小企业构建坚实的AI基础设施。

“不论模型、技术、应用如何快速演变,联想在智能时代的“联想智慧中国”的愿景和承诺不会改变。未来,联想将继续为加速中国企业智能化转型、推动AI普惠贡献力量。”陈振宽说。

0 阅读:0

给科技置顶

简介:感谢大家的关注