文/在前线 老凉
如同硬币的双面,AI的发展过程中,除了美好与希望,也伴随着焦虑与困惑。
近日,联想在上海举办联想创新科技大会(2024 Lenovo Tech World),发布联想万全异构智算平台,并与中国智能计算产业联盟共同宣布成立异构智算产业生态联盟。
联想集团执行副总裁兼中国区总裁刘军表示,AI是构筑新质生产力的核心要素,其所带来的颠覆性和需求多样性,是单一企业无法独立满足的。AI世界的未来,一定是产业协同、能力协同及生态协同发展。
联想集团执行副总裁兼中国区总裁刘军
在前线认为,人工智能加速落地,给千行百业的发展前景和人们的生活方式带来巨变,然而这背后却意味着:AI基础设施面临前所未有的压力与挑战。联想对人工智能产业的发展及智能化变革有着犀利的洞察,并有超前和全面的布局。
作为业界领先的智能基础设施及服务提供商,联想有责任帮助用户和产业打破AI焦虑症,此次联想万全异构智算平台的发布以及异构智算产业生态联盟的成立等一系列举措,旨在通过技术创新与生态联动破局AI落地的痛点和难点,为智能化转型打造全新的数字底座。
拒绝焦虑 异构智算应运而起
大模型的出现,就像打开了另一扇大门。随着AI模型参数的指数级增加,数据量迈入千亿,甚至万亿大关,大模型在具备更强泛化及生成能力的同时,也促使AI进入更多样的应用场景,和更深入的业务流程中。
然而,AI给人们带来便利和美好的同时,也带来了AI焦虑症,包括:大众对AI准备不足、甚至茫然的焦虑,也有企业、行业用户对AI给基础设施带来巨大压力的焦虑。
联想集团副总裁、联想中国基础设施业务群总经理陈振宽指出,目前来看,AI大模型的训练算力正以每年10倍的速度陡增,远超深度学习和摩尔定律的发展。AI 1.0时代正在向AI 2.0时代过渡。
图为联想集团副总裁、联想中国基础设施业务群总经理陈振宽
陈振宽表示,AI算力需求快速增加,一场全球范围内的AI产业大升级正在进行。AI 2.0时代,明确客户挑战,并构建稳定且高效的算力基础设施,显得尤为重要。
AI 2.0时代带来更加广泛的智能应用落地,与之而来的还有企业转型过程中的挑战与焦虑。具体来看,企业客户对算力的需求越来越大,但面对日益丰富的场景以及复杂多元的算力,如何精准匹配最优解成了客户在算力使用时的一大挑战。
不仅如此,大模型的应用在加速,形式也更多样。但一个现实的问题是,AI训练故障频发,大量时间和成本用于排障续训。AI训练本是试错过程,故障不可避免,但每次故障后的恢复会损耗大量时间成本。随着AI 2.0时代的到来,AI集群规模也会从千卡到万卡,故障所带来的损失会更加难以预估。
在这两方面的影响下,AI算力利用率也会同步降低,转而给用户带来更高的成本负担。而且在“双碳”目标下,算力升级与能耗平衡要做到并重,这同样是客户面临的挑战之一。
大模型在行业的渗透率持续提升,特别是垂直行业大模型落地正在加速。这预示着人工智能的下半场重在落地,而这一切都要依托全栈AI。作为企业转型的底座,IT基础设施需要进行全方位的智能演进。AI 2.0时代,正在呼唤异构智算。
可以说,只有打造新一代异构智算平台,才能支撑新时期多元应用场景的发展需求。联想在计算领域布局多年,通过在通用计算、科学计算、智能计算领域的深厚积累,为智能化转型提供坚实底座。
陈振宽表示,在AI 1.0时代,联想基于全球智慧和本地创新,打造了全面的基础设施产品组合。如今大模型开启的AI 2.0时代,联想通过过去40年的积累,重塑技术,升级联想基础设施战略布局。
值得一提的是,联想持续更新和迭代基础设施领域的战略。今年初,联想发布基础设施业务“一横五纵”战略框架,希望基于此构建布局完整、稳定高效的AI导向的基础设施,助力企业筑牢数字底座。
据悉,“一横五纵”中的“一横”,是指异构智算平台,能够对通用计算集群、科学计算集群和AI算力集群进行统一管理,并且能通过对多种CPU、GPU、DPU等处理器的异构管理调度,大幅优化算力的使用效率,帮助用户简捷、高效地使用算力资源。而“五纵”,则是指服务器、存储、软件及超融合、数据网络以及边缘基础设施产品和方案。
此次大会上发布的联想万全异构智算平台,着重打造AI 2.0时代联想中国基础设施战略框架核心,全面升级智能基础设施布局,帮助企业、行业用户应对基础设施挑战,进而加速推动智能化转型进程。
合纵连横 打造异构智算新引擎
之所以能够快速打造异构智算平台,得益于联想在基础设施领域充分且领先的储备。比如,在通用计算领域,联想x86服务器可靠性连续9年第一,截至2023年底斩获536项性能世界纪录;在科学计算领域,联想连续9年实现中国HPC TOP 100 NO.1。同时, 联想是全球第三大AI基础设施和服务器供应商,并在存储等领域排名前列。
可以说,作为联想“全栈AI”战略布局的三大支柱之一,AI导向的基础设施是联想推动企业、行业智能化转型综合实力和全面布局的体现。而“一横五纵”,将联想推动各行各业智能化转型的成果形成方法论,以此打造稳定高效的算力基础设施。
为了进一步落实和加快联想AI导向的基础设施的“一横五纵”布局落地应用,联想与合作伙伴携手共进,加速技术创新。比如前不久,联想与锐捷网络达成合作,将围绕技术创新、产品研发、资源协同和销售四大领域,加速“一横五纵”布局落地。
与此同时,联想也在关键技术和产品领域持续投入。据陈振宽透露,AI 2.0时代,联想聚焦超强算力、核心算法、液冷创新三大领域,打造了八项核心能力。面对企业智能化转型面临的新挑战,联想则进行了五大技术创新:
算力匹配魔方。基于海量硬件评测和AI算子算法集成工作,联想构建了AI场景、算法与集群硬件三者匹配关系的算力魔方知识库,来标识三者的匹配关系,并自动加载最优算法,调度最佳集群配置。
GPU内核态虚拟化。联想研究院开发了在GPU驱动层的内核态虚拟化算法,新算法可以将虚拟化造成的GPU算力损耗降到5%以下,极致情况可以降到1%以下,大幅提升GPU利用率。
联想集合通信算法库。联想有着多年集群网络设计经验,并积累了丰富的对大规模集群网络拓扑优化手段。联想集合通信算法库可实现对多类型网络拓扑的实时感知,并使数据在拓扑中以最佳路径进行传输。
AI高效断点续训技术。AI训练故障频发是常态,因此在训练前设置故障检查点和备份十分必要。联想异构智算平台在常规方法之外,开发了预测AI训练故障的AI模型,“用AI预测AI”。断点前提前优化备份,能将断点续训恢复时间缩减到分钟级,大幅提升训练效率。
AI与HPC集群超级调度器。针对混合集群做资源共享的前沿技术。联想AI与HPC超级调度器架构于AI和HPC调度之上,能够切换AI和HPC的调度沟通,能全局监控任务和动态共享资源,使得算力能够得到充分利用。
之前我们说,AI 2.0时代多元化的应用场景和复杂的算力需求供给,需要全新异构智算中心来实现。此次大会,在五大技术创新的基础上,联想推出万全异构智算平台,通过融合五大技术创新的能力,打造大模型训练和推理基础设施底座。
准确来说,联想万全异构智算平台是一个能高度自动化完成AI全流程开发的平台:既可以自动完成AI计算并发布模型或发布推理服务,又可以实现对数据和模型优化,算力匹配、管理调度及对训练和推理过程的监控。
深耕中国市场多年,联想深知企业智能化转型是以价值为导向,其中涉及企业业务运营全流程,十分考验方案提供商是否具备全要素、全方位、全周期的陪伴式服务能力。而联想万全异构智算平台的发布,不仅意味着联想“一横五纵”格局的完善,同时也凸显出联想“全栈AI”战略布局的核心价值和能力,也显示了联想全生命周期陪伴用户智能化转型的初心。
谈到未来,陈振宽表示,联想将持续聚焦三大核心领域的创新,未来会挑战超过万卡规模集群的通讯算法优化,挑战秒级的断点续训,深入研究相变式液冷技术,布局模块化液冷数据中心等等举措。
可以说,联想以大厂的责任、担当和实力,以及实际行动和突破创新推动AI算力高质量发展,解决用户痛点和产业挑战。
万全生态 共拓智能化新篇章
刘军在七年前的上海联想创新科技大会上说到,AI世界的未来不是《终结者》的末世恐惧,而是《星际迷航》的壮丽星辰。而如今来看,他的这个观点显得更加富有浪漫色彩,也充满对未来的笃定和向往。
智能化转型需要践行者、赋能者,更需要产业生态联动,只有加强技术、产业、应用等诸多方面的协同和配合,才能推动智能化转型的顺利进行,实现新质生产力和经济社会的高质量发展。
基于此,联想三大能力的整合向“全栈AI”进化,而对应的三大生态体系也变得清晰:面向AI终端产业的天禧生态,面向智算产业的万全生态,面向大模型和智能体产业的擎天生态。
此次,联想不但发布了联想万全异构智算平台,还携手中国智能计算产业联盟(中科院计算所),共同发起异构智算产业生态联盟,以期通过生态聚力推动中国智算产业、智能化转型的高速发展。
联想中国基础设施业务群战略总监黄山指出,异构智算平台将在AI计算中扮演关键作用。这是一个能高度自动化完成AI全流程开发的平台,从用户视角看,向平台输入场景需求和数据后,即可将计算过程交给平台自动完成,平台就像一个计算魔盒,能够自动优化数据和模型,自动匹配和调度算力,自动对计算的全过程进行监控, 直到最终输出模型或是推理服务。
对于异构智算平台,黄山进一步介绍说,异构指的是被平台管理调度的异构算力;智算类比平台,像超级大脑一样指挥异构算力执行计算;平台是能够向下纳管丰富的算力生态,向上对接为各类场景优化的模型及AI工具集,是AI生态伙伴和联想一起聚力提供AI方案集的大平台。
从异构智算产业生态联盟的细则来看,首批发起成员共计16家,包括AI芯片层、AI设备与系统层、AI平台与应用层等三大类别。
与此同时,我们看到异构智算产业生态联盟的“职责”既明确又接地气:其一是,为处于算力选择期的中国用户提供丰富的一站式的方案来适应多样化的AI应用场景;其二是,生态全链条的紧密合作调优来不断提升算力效率,解决算力荒,能耗荒。
黄山表示,广大行业客户急需能高效跑通大模型的方案,未来联盟成立后的第一步行动就是公布经过联盟验证的高性能方案和方案白皮书。“万全生态的万全意指,我们生态包罗万法,保用户算力周全,保用户投资回报周全。”
综合来看,在前线认为,迎来40岁生日的联想,向外界展现更强的自己——为智能化变革提供核心底座。异构智算平台和异构智算产业生态联盟,是联想解决AI焦虑和挑战的最优解。
从40年前的一粒小小种子到今天的参天大树,联想的发展离不开对创新和前沿技术的不懈追求,更离不开生态伙伴和用户的支持、认可。如今,推动新质生产力成为大势所趋,全栈AI作为智能化转型的核心底座,将在这场大潮中扮演重要角色,而异构智算产业生态联盟则让智能化转型及联想全栈AI战略行稳致远。