作者:王聪彬
生成式AI时代,企业对于AI的关注已从通用大模型转移到行业生产场景中,只有当大模型和企业真实数据结合,才能发挥出生成式AI最大的价值。
数据地位因而被再次提高,存储在企业中的优先级也被进一步提升。
为什么这么说,一方面算力越来越快,存力跟不上,经常导致算力资源空转浪费,一方面数据质量是喂养模型生成的关键,所以存储所承载数据的质量至关重要。
中科曙光存储产品事业部运营总监石静看到,加速,是AI数据存储的核心需求。
在性能强、高IOPS等生成式场景成为常态的情况下,曙光存储也在近期发布升级ParaStor分布式全闪存储产品,进一步强化了在AI应用中的性能表现。
最懂AI的加速存储方案
赛迪发布《2024中国分布式存储市场研究报告》显示,曙光存储位居中国AI存储市场第一。国家信息中心随后发布的《智能算力产业发展白皮书》,也重磅推介曙光存储面向推出的“智存”产品,点赞其面向人工智能场景的数据存储能力。
双重权威认可的背后,是因为曙光存储抓住了AI数据存储的核心需求——加速。
在以AI大模型为代表的人工智能场景中,加速是数据存储的核心价值,具体路径是通过缩短数据读写时间,提升AI大模型的训练效率,减少算力的空转等待时间,从而降低AI成本。
ParaStor分布式全闪存储被称为是最懂AI的存储产品,助力AI整体表现提升20倍以上。业界首创五级加速方案,让数据无需等待,快,还能更快,包括本地内存加速、BurstBuffer加速层、XDS双栈兼容,减少CPU中断、网络加速(RDMA-Based)、存储节点高速层( NVMe SSD-Based )。
石静认为,性能提升20倍以上的关键技术创新,主要有两个核心:最强的数据底座和最佳的AI应用加速套件。
数据底座:通过优化硬件性能,如利用高速网络(400G NDR IB卡或RoCE网络)与NVMe SSD闪存的协同作用,实现存储系统的最高性能,使存储能够在不改变应用层操作的情况下发挥最佳效能。
AI应用加速套件:采用五级加速技术,从数据流动路径的不同节点上加速I/O通路。第一层利用计算节点的本地内存加速热点数据,降低延时至纳秒级;第二层:在GPU服务器本地的NVMe盘上缓存关键数据,避免跨网络访问,显著提升小文件读写性能;第三层:在网络层采用RDMA技术,充分利用网络带宽;第四层:优化NVMe全闪存性能,提升存储系统的整体效能;第五层:通过GPU直通存储,减少CPU负载,实现GPU与存储的直接交互,进一步缩短I/O通路和降低延时。
最近曙光存储凭借ParaStor分布式存储强大的性能优势,及在多个AI创新业务场景中的优秀实践,荣获2024年度闪存风云榜“2024年度AI与闪存融合应用创新奖“。
具体到衡量存储支撑AI算力的性能上,主要有两个指标:第一,带宽,体现在每一个节点,每秒钟能够提供的吞吐量。ParaStor分布式全闪产品,单个节点可以做到最高150GB/s带宽;第二,IOPS(每秒输入输出操作数),智存ParaStor产品,每秒钟可以给用户提供320万IOPS。
“整个I/O通路上存储的每一个环节都不应该成为短板。”石静强调,存储必须快速、高效,并能应对大模型时代的复杂需求,才能支撑AI的高速发展。
所以在生成式AI时代,存储产业面临三个关键要求:
极致性能:随着模型参数量的指数级增加,计算复杂度提升,对存储性能提出了极高要求。存储必须具备足够的带宽和高并发IOPS能力,确保在训练和推理过程中不会成为计算的瓶颈。
业务契合度:随着业务需求的个性化发展,存储系统需能够与具体应用相结合,进行针对性的调优和定制开发,以支持从通用大模型到垂直大模型的转变。
数据安全:存储系统不仅需要保障数据的完整性和可靠性,还需提供精细的权限管理和审计功能,防止数据篡改和未授权访问,确保数据在整个I/O通路中的安全。
加速AI的多层次优化逻辑
AI工作流程主要被分为训练和推理的两大主要阶段,具体又可以细分为数据导入清洗、预处理、训练、推理、数据归档,曙光深入分析五个阶段对存储系统的不同需求,并进行了针对性的优化,以更好地支持AI应用的高效运行。
数据导入与清洗阶段:存储系统需要具备多元数据异构管理能力。这意味着存储系统必须支持多种协议,并且能够进行协议互通,以便高效地处理和管理不同来源的数据。
数据预处理阶段:需要将数据读入系统,执行单流读操作后再进行分块处理并实现随机访问,对存储系统的IOPS提出较高要求。
数据训练阶段:存储系统需要保障高IOPS和低延时,以应对频繁的随机访问需求,加速训练数据的读取和处理。此外为了防止训练过程中断,需要定期执行Checkpoint操作,要求存储系统具备高带宽支持。
数据推理阶段:会涉及分发、低延时、高并发等需求,存储系统必须能够快速响应并处理多个并发请求,以满足AI推理的实时性要求。
数据归档阶段:需要具备全生命周期管理能力,从热存储、温存储到冷存储,确保数据在整个生命周期中的有效管理和归档。这要求存储系统能够在不同介质之间实现数据的自由流动,并根据不同需求动态调整存储策略。
曙光存储会基于这一框架进行需求分析,并进一步做深度优化。比如在AI模型训练过程中,对于存储挑战最大的是伴随很多随机原数据访问,并有较高IOPS及低时延需求。曙光存储通过了解客户具体的时延要求和IOPS目标,进一步分析调整原数据布局、优化数据分发策略、数据通讯,结合存储软件特点,并与GPU性能表现相结合,对整体系统进行综合优化。
整个分析思路从宏观需求分析逐步细化到具体技术调整,最终总结出多层次的优化策略,为用户提供更高效的AI存储解决方案。
针对当前十分火爆的“智元机器人”,考虑到其对于低时延、高性能和智能化运维的三个关键需求,曙光存储设计了一套专门的解决方案。低时延方面,通过全闪分布式存储、NVMe盘和RoCE高速网络,显著降低数据传输时延。同时采用精细化资源调配策略,优先处理紧急请求,提升系统响应速度;高性能方面,提供最强的数据底座与最佳应用套件;智能化运维方面,引入AI进行故障预测和智能运维管理,确保系统在用户前端呈现出最佳状态,提升用户体验。
生成式AI时代,存储已经不仅是数据的容器,更成为驱动企业创新与发展的关键引擎。曙光存储通过不断优化和创新,为AI应用提供了强大而高效的支持。随着AI技术的不断进步,存储的角色将更加重要,曙光也将进一步助力企业在智能化转型中实现突破,开创数字经济新篇章。