2023年10月,六部门联合发布《算力基础设施高质量发展行动计划》,其中明确了全国算力在未来三年的建设步调。 2024年2月,国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会,强调央企要把发展人工智能放在全局工作中统筹谋划,把主要资源集中投入到最需要、最有优势的领域,加快建设智算中心。 与此同时,近两年ChatGPT、AIGC、Sora等人工智能的话题引爆全世界,大模型走向多模态化,传统的数据中心开始向智算中心改革。
什么是智算中心?作为AI技术产业化的重要引擎,智算中心可为各类AI应用提供强大的算力支持、数据处理能力和先进的算法服务,而其关键功能在于其算力资源的高效生产、聚合、智能调度和精准释放,这些能力将共同促进数据的开放共享、智能生态系统的构建以及产业创新的集聚。 换言之,智算中心是服务于人工智能的数据计算中心,包括人工智能、机器学习、深度学习等需求,从而赋能产业发展。 根据IDC的《2021-2022全球计算力指数评估报告》,一个国家的计算力指数每提高1点,数字经济将增长3.5‰,GDP将增长1.8‰。 也正是因为智算中心的这些特性,国家才在重点布局数据中心,中国国内的设备供应商也在积极参与到AI领域,尤其在智算中心设备方面。智算中心需要怎样的算力支撑?智算中心将算力资源全面解耦,以追求计算、存储资源极致的弹性供给和利用。 当前,智算中心的训练大都以GPU为主。那么,以GPU为主的算力真的是未来智算中心的最优选择吗? 业内有一种说法:“在高性能计算领域,算力的竞争归根结底是能耗效率的较量。”换言之,在AI和大数据时代,对于算力的需求日益增长,而能源消耗和成本效益成为了衡量计算解决方案竞争力的重要指标。因此,设计低能耗、高效率的算力解决方案对于确保可持续发展和经济效益至关重要。 而对于智算中心的建设来讲,相比以GPU为主要硬件底座的方案,采用AI芯片的方案可能在特定任务上提供更高的性能或更低的能耗,并针对特定类型的AI模型或应用进行优化,从而提供更高的效率。国产 AI 芯片系统方案商业落地加速目前,国产算力随着性能和易用性的提升,正逐渐获得国内大模型和人工智能应用企业的青睐。 在2024 WAIC上,我们看到以燧原科技为代表的国产算力提供商,已经在智算中心领域实现了“从一到多” 的合作落地,进展还是不错的。图 | 燧原科技2024 WAIC 展台,来源:燧原科技
根据燧原科技提供的信息显示,当前燧原科技的二代产品已经落地之江实验室、成都智算中心、宜昌点军智算中心(300P算力)和庆阳智算中心(50000P算力)等大型算力中心。其中,点军智算中心仅用一年就完成了300P国产算力的建设,自2024年1月运行至今,300P算力已经实现全消纳,所有的板卡和服务都开起来,而且不停地有业务在上面跑。 针对以上智算中心的建设过程与成果,笔者简单采访了燧原科技软件工程师,作为项目的一线参与者,他表示:“虽然模型算法是通用的,但是我们还是做了不少适配和调试的工作;此外,要保障如此大规模的算力平台能够稳定、有序地运行和调度,我们也做了一些快速而特色的部署,而对于异构的多地部署算力在这一块,则还需要软硬件协调去解决这个问题。” 谈到过去一年,燧原科技在软硬件上面最大的进步,这位工程师坦诚道:“我是做软件的,当我们将大模型从其他硬件平台迁移到我们平台时,初期的效率可能只有其他平台的30%-40%,经过我们的软件适配和调优,模型的输出能力可以逐步上升至70%-80%,再到110%-120%。事实上,当前在软件侧最大的提升其实是其业务性,因为我们之前的平台迁移需要花比较大的努力,而现在对于我们的客户来说,迁移成本已经变得非常小。假设之前要花一个月的时间才能将模型输出能力爬坡到一个良好的水平,现在只需要花3-4天,甚至1-2天的时间就能达到相同效果。”