AI时代,需要什么样的服务器操作系统?

光锥智能 2024-09-01 19:36:43

文|刘俊宏

编|王一粟

AI时代,中国的服务器系统正在面临一场双重挑战。

今年6月底,最主流的开源服务器操作系统CentOS正式停服,找一个合适的操作系统进行迁移成为了必选项。同时,AI时代的到来,大模型追求更大、更快的训练及推理,也对整个算力产业提出了算力形态多元异构、算力供给服务化、算力应用智能化,这些更高、更新的要求。

众所周知,只有强大的云计算,才能孕育强大的AI大模型,而云计算的基础就是服务器。如何管理好这些服务器?操作系统是最底层、最关键的平台软件。夹在行业和时代的剧变中,IT行业的从业者们需要一个足够稳定、社区能够长期支持和AI原生的服务器OS,以此角逐接下来的“AI十年计划”。

正如中国工程院院士、龙蜥高级顾问团代表陈纯所言,“云计算的调度与弹性,大模型的训练与推理,都离不开一个稳定、安全、高效的服务器操作系统”。

8月30日,在第二届龙蜥操作系统大会上,国内开源操作系统根社区龙蜥,推出官方正式版Anolis OS 23 ,可以更好支撑模型训练和AI应用,全面兼容国内外主流CPU、GPU架构。

最令人惊喜的,还是龙蜥OS当前已经有了超800万套的装机量。这意味着,龙蜥OS在当前超过1000家合作伙伴和100万用户的落地中,初步实现了可长期自循环的生态,是国内规模最大、生态最全面的服务器操作系统之一。

而这仅仅是开始。

参考PC端的Windows系统在英特尔和众多开发者的帮助下,最终称霸全球的经验:一款操作系统的成功,背后其实是整个上下游产业合作共创的结果。

面向未来,龙蜥也正式启动了“Anolis OS 23生态衍生”、“CentOS替代”和“AI应用推广”的三大计划,正在从底层生态、满足市场需求和AI应用三个层面做全力追赶。

作为软件产业的三座大山之一,中国本土服务器系统正在迈入新阶段,AI大模型的机遇中,甚至还有了弯道超车的可能。

AI原生的操作系统,到底长啥样?

“Android之父”安迪·鲁宾曾观察到操作系统存在以12年为周期更迭的现象,并在移动互联时期网依然昌盛的2017年便提到,“AI是下一个重要操作系统”。

他的论断还有待时间的检验,但在新一轮AI技术的迅猛发展下,手机、PC等各种硬件,都开始拥有了所谓的AI原生操作系统,以更好地支持AI推理和应用。

然而,在承接最关键的AI大模型训练任务的服务器端,用于大模型训练的AI化操作系统却迟迟没有到来。

背后原因,在阿里云基础软件部副总裁、龙蜥社区理事长马涛看来,主要是不同端的操作系统,要面临和处理的场景、难度完全不一样。

“手机AI,可能操作系统去支持唤醒Siri;桌面操作系统,比如windows,可能是支持AI编个日程、写个总结之类的任务。但服务器操作系统是完全不一样的,大模型训练现在基本上跑在云上,这对调度和管理算力资源的服务器操作系统,就提出了更大的挑战。另一方面,一个操作系统运行在上万台或者几十万台的服务器集群上,需要AI去分析系统的疑难杂症和风险。”

服务器硬件厂商的感受更为明显。浪潮云海首席科学家、龙蜥社区副理事长张东就直言,“ AI技术这两年发展太快,底下的硬件和操作系统都是被拉着走的。”

“用户说一台服务器里面塞8块卡不行,要塞16卡;存储60块盘不行,得配100块,很快就200块了,这逼着硬件厂商把机器越做越大。集群规模也越来越大,一百张卡不够,要一千张,一万张,这些硬件资源往上跑,怎么高效管理和调度?操作系统是解决这个问题非常重要的环节。”

一方面,操作系统本身要能处理AI相关硬件的爆发式增长和异构硬件的兼容等问题;另外一方面,需要用AI的能力去改造操作系统,把适配、搭建环境和系统等复杂的工作都自动处理掉,让用户很方便地去直接使用。

“我觉得把操作系统往AI方向发展的未来是确定的,但是现在对AI的适应实际上还远远不够。服务器操作系统怎么进一步真正变成AI原生,更好支撑AI的训练和推理,同时操作系统本身也能够变成一个智能体,还需要更大级别的创新。”张东如此总结道。

龙蜥尝试解决这个问题,一边是 “System for AI”,一边是“AI for System”。

具体而言,“System for AI”主要是系统针对大模型训练和推理的兼容性、稳定性和安全性进行了大量的优化工作,以更好支撑AI发展。

全新发布的Anolis OS 23正式版,采用 ANCK 6.6 内核,显著增强了对多平台的兼容性,已经全面支持国内外主流的CPU、GPU架构。在针对AI场景大量使用的AI框架中,提供了包括OpenVino在内的原生支持。

并且,Anolis OS 23 适配更新、更丰富、更安全的 AI 容器服务生态(Alibaba cloud AI containers),包括 AI on NVIDIA、 AI on AMD、AI on Intel 和 AI on 国产 GPU 等多生态场景。

容器服务承担了目前80%的云上AI任务,是最主流的AI开发方式,龙蜥新版本的这一迭代,势必会帮助更多AI推理和应用直接从龙蜥操作系统上长出来。

在“AI for System”这边,则主要是考虑到了用户在使用龙蜥过程中的效率和易用性,强化了AI原生操作系统的优势。龙蜥操作系统利用利用大模型打造了AI助手Copilot,能够回答用户问题,执行简单操作,分析系统问题。

此外,龙蜥还探索利用AI能力去辅助上系统管理人员、研发人员、安全和运维人员更好地使用好这个操作系统等,用户用起来就会感觉它是根据AI做的设计,真正体会到“AI原生”的意涵。

好的操作系统,需要软硬件全产业链协同

“操作系统由几万个(软件)包构成,这几万个包就像是街道上的几万只猫,操作系统需要让几万只猫一会排成W形、一会儿排成S形,难度可想而知。”在统信软件服务器产品线总经理崔湛看来,做出一个好的操作系统并不容易。

更难的是做一个大家都用的、成功的操作系统。纵观整个IT行业发展史,这极其仰赖于产业链上下游的共同努力。

在PC时期,是微软Windows早期坚定“抱紧”英特尔。或许,英特尔的X86架构并不一定是所有CPU指令集的最优选,从DOS系统迭代的Windows也不一定是最好的PC操作系统。但在PC早期渗透的时期,“Wintel”联盟凭借软硬件一体的合作,与PC行业的第一批程序员们,共创了Windows与Intel的全球的霸主地位。

在移动互联网时期,这一合作成了安卓与ARM。安卓追求更便宜、更定制化的芯片硬件,ARM架构恰恰是当时最好的选择,双方强强联手,铸造了移动互联网时代的AA传奇(Android&ARM)。

透过Windows和Android的成功经验看到,操作系统要想成功,除了需要本身性能足够好用外,更需要从硬件到软件的全产业链协同创新。

作为龙蜥社区创始成员的阿里云,前两年就提出“一云多芯”,底下是不同厂商、不同功能的芯片,上面是一朵统一输出算力的云。

要达成这样的目标,就必须要在服务器操作系统这一关键的平台软件层实现最大程度的兼容。

龙蜥新发布的Anolis OS 23正式版,显著增强了对多平台的兼容性,还更新了开发工具和语言,在GCC上针对国产芯片平台做了专项优化,可带来11%的性能提升。

龙蜥全面兼容国产芯片,对国际主流芯片也能很好支撑。

英特尔也是龙蜥社区的理事单位之一,英特尔资深技术总监、龙蜥社区副理事长杨继国就提出,“企业从CentOS过渡到龙蜥以后,在性能和兼容上不会有任何障碍”。

一方面,英特尔最新的芯片产品也能和龙蜥兼容,比如Anolis OS23就率先支持了英特尔今年刚刚发布的至强6芯片平台;另一方面,对于广泛使用的英特尔芯片,英特尔也能持续在龙蜥社区提供兼容性和生态扩展的支持。

“从CentOS迁移到龙蜥,我们发现对新平台的支持、对于芯片的优化,龙蜥可能做得更好,并且做的更加快,而且效率更高”。杨继国称。

杨继国还透露,英特尔在龙蜥社区做了很多工作,让龙蜥操作系统与AI硬件能更好兼容;在软件框架层面,英特尔则把开放的异构编程框架引入集成到龙蜥社区里面去,让用户能够以一种非常开放、开源的模式做AI开发工作。

另一大芯片领域的巨头Arm,也在探索如何更好贡献于龙蜥社区。

本届龙蜥大会上, Arm、阿里云、平头哥、中兴新支点等公司也联合宣布,将组建龙蜥社区Arm工作组,协同推进基于Arm架构的基础软件生态。

操作系统的桥梁纽带作用通过开源社区的协作,放大了体系的效果。通过各方的努力,龙蜥社区如今已经聚集了超过1000家的整个社区参与者和伙伴,是国内规模最大、生态最全面的操作系统根社区之一。

这显然也会有益于开源社区里的每一个成员。

阿里云基础设施事业部总经理蒋江伟更是直言,得益于众多通用异构芯片的厂商,特别是在国产自研芯片厂商,在龙蜥社区的积极参与和贡献,阿里云可以更好的发展一云多芯的战略,在获得更健壮的硬件供应链保障的同时,也实现了统一资源的管理和调度,进而向广大的客户提供了更高效的算力基础设施服务。

统一内核,坚持开源,破解碎片化难题

数据显示,2023年,我国平台软件市场高速增长,规模达816.6亿元,同比增长17.4%。我国操作系统市场增速进一步加快,高达23.2%,而操作系统市场增长的动力主要来自服务器操作系统。

操作系统市场迅猛发展,也伴随着底层内核不统一、版本碎片化的烦恼。

张东直言:“操作系统发展出现了很多版本,国内情况也比较复杂,可能比国外情况还复杂。作为整机厂商,在过去的应用推广过程里面临的碎片化问题,对我们来讲就是一个很头疼的问题。因为我们任何一款设备在出厂之前都是要经过大量的测试,每引入一个新的部件都要进行测试,测试过程里面市面上主流操作系统都要跑一遍。”

龙蜥社区为此提出了新的方案。

“我们希望通过Anolis OS23,把很多兼容性问题通过标准、规范等方式确认下来,形成一个比较统一、稳定的基础。比如硬件厂商只要适配了Anolis OS23,理论上来说可以适配任何一款基于Anolis OS23的商业版本,比如目前已经有的12家衍生版本,都可以适配,这样让整个操作系统生态链里的上下游成本都降低。”马涛解释,这就是Anolis OS23生态衍生计划的最重要的意义。

Anolis OS 23生态衍生计划,需要整合技术的内核、供应链等社区参与的标准,并发行相应的商业衍生版、社区开源版等不同版本。这样,整个中国及未来商业上下游的软件生态,才能一套机制统一内核、工具链和KAPI,进而推动整个中国国产化操作系统的生态发展。

在龙蜥大会上,中科院院士王怀民还特别提到,在国家部委的协调下,龙蜥社区等中国开源操作系统社区,已经就Linux内核版本的选择以及相关运行时程序包的选择上达成了一致。

除Anolis OS 23生态衍生计划外,龙蜥社区还推出了“CentOS替代计划”和“AI应用推广计划”两大计划。

CentOS今年6月30日彻底停服,许多企业面临迁移和连续性的挑战。龙蜥社区做了大量的APP、软件生态的适配,希望通过Anolis OS23、借助各种各样的版本升级和迁移工具,让用户更方便地迁移到龙蜥上。

在崔湛看来,龙蜥社区非常有担当:“CentOS停服会导致业务停掉,停服以后到用户真正完完全全脱离这个平台需要时间,龙蜥社区成立一个组专门做CentOS的运维监管,统信软件也参与其中,做了大量补丁维护和升级的支持。”

“AI应用推广计划”,则是代表了未来。本次大会,龙蜥社区首次推出“AI原生操作系统”发展路线,围绕AI时代也推出了AI容器镜像、智能运维AIOps、OS Copilot文档建设三大计划,持续推动龙蜥操作系统在Sys for AI和AI for Sys两个方向的持续突破,重塑操作系统在AI时代的核心竞争力。

马涛总结到:“三大计划,简单说是我们以Anolis OS23为核心,在‘继往’和‘开来’两个方面推进,最终通过以龙蜥操作系统为核心推动操作系统开源生态发展。”

开源开放的生态,是龙蜥社区的关键词,这也成为吸引众多头部企业参与龙蜥的原因之一。

杨继国坦言,自己做了二十多年的开源,在开源本身技术上、理念上中国和国际没有太大区别: “做开源的人认同这个理念:开放的心态、开放的开发模式共同推动科技发展。”

他也观察到,与国外开源社区由商业公司主导、有公司商业目的不同,中国的开源更像一个真正的社区,大家有同样的目标,一起参与去贡献。

“像龙蜥社区,我们坚持开放、中立,而且是一人一票的社区,所以基本上这个社区能够有一个更加好的机制,把共同的商业伙伴聚在一起,包括英特尔,和英特尔的竞争对手,都在社区里。从科技发展角度来说,更能够促进开源社区的发展,这是更加良好的模式,我们英特尔也是非常愿意投入到像龙蜥这样的开源社区的。”杨继国说。

结语

“操作系统市场增长的动力主要来自服务器操作系统,一方面是行业信息化建设中的新增市场需求,另一方面是人工智能服务器放量带来的新增市场需求。”赛迪顾问股份有限公司总裁助理高丹说道。

当前,计算产业面临着以人工智能为驱动力的新变革,这一变革会对整个计算产业的生态格局,以及基础设施,软硬件供应链的演进带来深刻的影响和重塑。

服务器操作系统社区作为这一基础设施不可或缺的一环,机遇和挑战并存。未来几年,结合中国产业的发展趋势,我们也会看到CentOS替代和国内开源生态也会因这一变革,并加速演进。

从中国本土孕育成长,以龙蜥为代表的开源社区,未来还要走向世界。

“通过龙蜥社区培养中国开发者参与到国际社区,让来自中国的操作系统和开发者,在国际上做更多关键工作,甚至成为标准的制定者,或者核心组件维护者,将一些我们有优势的技术和理念,贡献于全球开源社区,共同推动国际开源项目的发展。”马涛说。

0 阅读:11

光锥智能

简介:AI产业第一媒体,关注千行百业的数智化。