近两年来,在政策支持和技术需求的推动下,全国范围内都在兴建智算中心。IDC圈统计数据显示,到2024年5月下旬,我国共建设有大约283座智算中心,遍布所有省、自治区和直辖市。机会都是留给有准备的人的,现在,青云科技等到了机会。
智算中心建设浪潮给青云科技带来了新的业务机会
如火如荼的智算中心建设浪潮给青云科技带来了大量业务机会。2023年,青云科技投入核心资源发展AI相关业务和战略软件。2023年年度报告显示,青云科技的AI智算平台及战略软件实现收入4547.90万元,比上年同期增长68.02%。
2022年年底,横空出世的ChatGPT掀起新一轮AI科技狂潮。在确认AI并非噱头之后,2023年9月,青云科技抢先布局,正式发布 AI 算力云和 AI 智算平台。
其中,AI智算平台是一款云服务,以公有云的方式向公众提供面向AI相关的资源服务,比如AI裸金属GPU主机、AI训练集群等,当然,还有很多预配置的运行环境等,市场上类似的服务也有一些。
此外,青云的AI智算平台专门为其他机构建设的智算中心提供服务,解决了智算中心建成后运营和资源管理的难题。通俗点说,就是用一套系统来帮助智算中心管理大量复杂的硬件。同时,用这套系统将资源分配给使用者,为他们提供各种便利。
青云AI智算平台在打造智算中心的建设与运营新模式,可以让运营者像管理本地资源一样管理AI基础设施,对资源进行监控调整,提高资源使用效率。目前,该方案已在国家超算济南中心等算力中心成功落地并投入使用。
青云AI智算平台这套方案最诱人的价值在于,它可以提高资源的利用率。从宏观层面来看,智算中心动辄以亿为单位的建设成本,如何能快速上线,如何高效利用起来,都是非常重要的问题,任何环节出现问题都可能造成不必要的浪费。
从微观层面来看,显卡都非常昂贵。传统的超算中心或者智算中心的GPU利用率大约为10-20%,而通过青云的AI智算平台,利用率可以提升到50-60%,在某些情况下甚至可以达到70-80%,尤其在利用了GPU资源切分与弹性伸缩技术之后。
青云科技AI智算平台的主要优势
青云科技AI智算平台可以快速部署。青云科技智算产品经理苗慧表示,如果基础设施齐全,青云智算平台的安装、调试和部署大约需要一周时间,性能调试再需要一周,两周左右可以完成智算平台的部署,其交付速度非常快。
青云科技副总裁沈鸥
青云科技副总裁沈鸥表示,快速交付的能力对于客户极具吸引力,特别是那些有着高额投资的客户,迅速上线能节省大量的时间和成本,从而提高投资回报率。而且,交付完成后,青云提供运维支持可以让用户顺利和高效地使用平台。
沈鸥还提到,国家政策推动了智算中心的建设,也只支持超前建设的做法,但由于一些数据中心的建设与实际应用需求不匹配,导致闲置。为了应对这一问题,则可以使用青云科技的软件能力来提升运营效率,让数据中心更好地变现。
青云的AI智算平台并非所有公司都能轻易复制,其背后拥有较高的技术门槛。
从技术上来介绍,青云科技的AI智算平台是基于其云计算、虚拟化等技术基础来打造的,特别是在容器技术上的积累。这两个关键技术,前者可以用来替代VMware,后者则是KubeSphere这一符合AI技术应用趋势的云原生架构,两个都很扎实。
作为一项专门面向AI场景的服务,青云科技在云计算的基础上进行了升级,尤其是整合了英伟达的很多个套件,涉及网络、通信、IP网络和识别等功能。这些集成优化了GPU的使用。
此外,由于在智算领域的用户以数据科学家和算法工程师为主,他们对计算机硬件不太了解。因此,青云提供了一个基于实际业务流程的产品,为用户简化了操作流程,使他们能够快速创建开发环境,进行模型训练、多机多卡部署等操作。
青云科技AI智算平台在市场上并不多见。与很多提供服务器、AI加速器等基础设施部部件的厂商不同,青云科技将所有功能整合在一起,并消除了底层的复杂性。并且提供运营能力,支持用户自服务,提供租户隔离、精准计量计费等能力。
青云科技成功抓住了AI智算市场的机遇
据了解,青云在2019年建设了济南超算中心,拥有超3000P的算力资源。该平台不仅规模庞大,自运营以来还覆盖了广泛的业务场景,包括工业仿真、基因测序、智慧城市、政务服务以及高校科研等多个领域。
青云科技CEO林源
青云科技CEO林源表示,济南超算中心是除了BAT之外规模最大的算力中心,作为青云AI智算平台的成功案例,也是目前唯一运营超过三年的案例。它所承载的业务类型非常丰富,平台异构、多元化,是一个成功的典范。
有媒体统计了青云科技自2023年以来在AI算力相关业务上的情况,截止到2024年8月,已拿下多个AI算力大单,已公告合同金额达4.8亿元。林源介绍说,青云与合作伙伴已经落地了近20个区域智算中心。
今年 6 月,青云 AI 智算平台发布了 2.0 版本,全面拥抱云原生,实现从 AI 基础设施到 AI 开发训练推理的全流程高效管理,在算力管理、简化操作、降低成本和增强运维效率方面的有了全面升级。
2024年10月9日,青云科技更新了AI算力产品与服务,提升了算力调度、资源利用、GPU切分等能力。推出了针对智算中心、大模型/多模态、边缘智能、金融、具身智能、生物医药、高校科研、自动驾驶、互联网、政务等十大场景的解决方案,并通过生态合作战略推动AI技术在各行业的落地与应用。
独行快众行远。沈鸥强调,AI的发展依赖于跨界融合和合作伙伴的协同,青云通过与各大GPU、DCU厂商和大模型企业合作,通过算力共赢计划、模型共建计划等,构建了200多家合作伙伴的生态体系,支持多行业、多场景的AI应用落地。