加速AI，曙光存储的登顶要义

作者：王聪彬

生成式AI时代，企业对于AI的关注已从通用大模型转移到行业生产场景中，只有当大模型和企业真实数据结合，才能发挥出生成式AI最大的价值。

数据地位因而被再次提高，存储在企业中的优先级也被进一步提升。

为什么这么说，一方面算力越来越快，存力跟不上，经常导致算力资源空转浪费，一方面数据质量是喂养模型生成的关键，所以存储所承载数据的质量至关重要。

中科曙光存储产品事业部运营总监石静看到，加速，是AI数据存储的核心需求。

在性能强、高IOPS等生成式场景成为常态的情况下，曙光存储也在近期发布升级ParaStor分布式全闪存储产品，进一步强化了在AI应用中的性能表现。

最懂AI的加速存储方案

赛迪发布《2024中国分布式存储市场研究报告》显示，曙光存储位居中国AI存储市场第一。国家信息中心随后发布的《智能算力产业发展白皮书》，也重磅推介曙光存储面向推出的“智存”产品，点赞其面向人工智能场景的数据存储能力。

双重权威认可的背后，是因为曙光存储抓住了AI数据存储的核心需求——加速。

在以AI大模型为代表的人工智能场景中，加速是数据存储的核心价值，具体路径是通过缩短数据读写时间，提升AI大模型的训练效率，减少算力的空转等待时间，从而降低AI成本。

ParaStor分布式全闪存储被称为是最懂AI的存储产品，助力AI整体表现提升20倍以上。业界首创五级加速方案，让数据无需等待，快，还能更快，包括本地内存加速、BurstBuffer加速层、XDS双栈兼容，减少CPU中断、网络加速（RDMA-Based）、存储节点高速层（ NVMe SSD-Based ）。

石静认为，性能提升20倍以上的关键技术创新，主要有两个核心：最强的数据底座和最佳的AI应用加速套件。

数据底座：通过优化硬件性能，如利用高速网络（400G NDR IB卡或RoCE网络）与NVMe SSD闪存的协同作用，实现存储系统的最高性能，使存储能够在不改变应用层操作的情况下发挥最佳效能。

AI应用加速套件：采用五级加速技术，从数据流动路径的不同节点上加速I/O通路。第一层利用计算节点的本地内存加速热点数据，降低延时至纳秒级；第二层：在GPU服务器本地的NVMe盘上缓存关键数据，避免跨网络访问，显著提升小文件读写性能；第三层：在网络层采用RDMA技术，充分利用网络带宽；第四层：优化NVMe全闪存性能，提升存储系统的整体效能；第五层：通过GPU直通存储，减少CPU负载，实现GPU与存储的直接交互，进一步缩短I/O通路和降低延时。

最近曙光存储凭借ParaStor分布式存储强大的性能优势，及在多个AI创新业务场景中的优秀实践，荣获2024年度闪存风云榜“2024年度AI与闪存融合应用创新奖“。

具体到衡量存储支撑AI算力的性能上，主要有两个指标：第一，带宽，体现在每一个节点，每秒钟能够提供的吞吐量。ParaStor分布式全闪产品，单个节点可以做到最高150GB/s带宽；第二，IOPS（每秒输入输出操作数），智存ParaStor产品，每秒钟可以给用户提供320万IOPS。

“整个I/O通路上存储的每一个环节都不应该成为短板。”石静强调，存储必须快速、高效，并能应对大模型时代的复杂需求，才能支撑AI的高速发展。

所以在生成式AI时代，存储产业面临三个关键要求：

极致性能：随着模型参数量的指数级增加，计算复杂度提升，对存储性能提出了极高要求。存储必须具备足够的带宽和高并发IOPS能力，确保在训练和推理过程中不会成为计算的瓶颈。

业务契合度：随着业务需求的个性化发展，存储系统需能够与具体应用相结合，进行针对性的调优和定制开发，以支持从通用大模型到垂直大模型的转变。

数据安全：存储系统不仅需要保障数据的完整性和可靠性，还需提供精细的权限管理和审计功能，防止数据篡改和未授权访问，确保数据在整个I/O通路中的安全。

加速AI的多层次优化逻辑

AI工作流程主要被分为训练和推理的两大主要阶段，具体又可以细分为数据导入清洗、预处理、训练、推理、数据归档，曙光深入分析五个阶段对存储系统的不同需求，并进行了针对性的优化，以更好地支持AI应用的高效运行。

数据导入与清洗阶段：存储系统需要具备多元数据异构管理能力。这意味着存储系统必须支持多种协议，并且能够进行协议互通，以便高效地处理和管理不同来源的数据。

数据预处理阶段：需要将数据读入系统，执行单流读操作后再进行分块处理并实现随机访问，对存储系统的IOPS提出较高要求。

数据训练阶段：存储系统需要保障高IOPS和低延时，以应对频繁的随机访问需求，加速训练数据的读取和处理。此外为了防止训练过程中断，需要定期执行Checkpoint操作，要求存储系统具备高带宽支持。

数据推理阶段：会涉及分发、低延时、高并发等需求，存储系统必须能够快速响应并处理多个并发请求，以满足AI推理的实时性要求。

数据归档阶段：需要具备全生命周期管理能力，从热存储、温存储到冷存储，确保数据在整个生命周期中的有效管理和归档。这要求存储系统能够在不同介质之间实现数据的自由流动，并根据不同需求动态调整存储策略。

曙光存储会基于这一框架进行需求分析，并进一步做深度优化。比如在AI模型训练过程中，对于存储挑战最大的是伴随很多随机原数据访问，并有较高IOPS及低时延需求。曙光存储通过了解客户具体的时延要求和IOPS目标，进一步分析调整原数据布局、优化数据分发策略、数据通讯，结合存储软件特点，并与GPU性能表现相结合，对整体系统进行综合优化。

整个分析思路从宏观需求分析逐步细化到具体技术调整，最终总结出多层次的优化策略，为用户提供更高效的AI存储解决方案。

针对当前十分火爆的“智元机器人”，考虑到其对于低时延、高性能和智能化运维的三个关键需求，曙光存储设计了一套专门的解决方案。低时延方面，通过全闪分布式存储、NVMe盘和RoCE高速网络，显著降低数据传输时延。同时采用精细化资源调配策略，优先处理紧急请求，提升系统响应速度；高性能方面，提供最强的数据底座与最佳应用套件；智能化运维方面，引入AI进行故障预测和智能运维管理，确保系统在用户前端呈现出最佳状态，提升用户体验。

生成式AI时代，存储已经不仅是数据的容器，更成为驱动企业创新与发展的关键引擎。曙光存储通过不断优化和创新，为AI应用提供了强大而高效的支持。随着AI技术的不断进步，存储的角色将更加重要，曙光也将进一步助力企业在智能化转型中实现突破，开创数字经济新篇章。

幸福双城资讯网

给科技置顶