作为2023年最热门的技术之一,各家企业都在积极拥抱人工智能(AI)和生成式人工智能(GenAI),争相利用其优势。IDC近期发布的2024年V1版《全球人工智能和生成式人工智能支出指南》(IDC Worldwide AI and Generative AI Spending Guide)数据显示,到2027年,全球AI IT总投资规模有望增至5124.2亿美元,Gen AI市场规模将接近1500亿美元。中国GenAI投资占比将达到33.0%,投资规模超130亿美元,五年复合增长率(CAGR)达到86.2%。
但GenAI的出现也带来了“(数据)包袱”。企业需要大量信息来构建和训练GenAI模型,这些模型也会相应地产生大量数据返还给企业。因此,每位企业领导在采用AI和GenAI之前都必须问自己:我们的存储解决方案是否能够胜任这项任务?
在2024年及以后,正是那些拥有可扩展、安全且经济的数据架构的企业,才能从AI赛道上的众多“选手”中脱颖而出。
GenAI时代的存储解决方案
想要成功部署GenAI,企业必须通过重新构思、设计和优化其存储方案来有效应对GenAI的庞大数据管理需求。这样做能够使企业避免因存储不足或设计不当而拖慢流程。
现实中,传统的存储系统已经无法跟上数据爆炸式增长的速度。GenAI系统不断发展,处理的新任务越来越复杂,因此对存储系统的要求也只会越来越高。换言之,存储平台必须能够匹配情况更加复杂的非结构化数据(又称定性数据)以及GenAI所带来的新需求。
事实上,非结构化数据占每年生成数据量的90%以上。造成这一情况的主要原因是人为数据的增加,而这部分数据则充斥着杂乱无章的列分析。企业需要采用新的办法来经济高效地存储大规模且复杂的数据,同时还要能够方便、快捷地访问数据并防止网络犯罪分子的入侵。非结构化数据由于其价值和庞大的体量,尤易成为黑客的目标。
简言之,企业想要拥有并期待更佳的数据移动、访问、可扩展性和保护体验。许多企业将云优先战略作为权宜之计,把数据存储在多个公有云环境中。虽然这在短期内的确是一个办法,但从长远来看,企业将面临不断攀升的进出成本、安全问题以及数据优化方面的挑战。为了让GenAI真正发挥作用,企业需要能够简单、方便地访问数据,而一个云优先的战略则很难做到这一点。
因此,企业应转而采取multicloud by design的方法。这将帮助其在短期和长期均可解锁多云的全部潜力,免受孤立的专有工具和服务生态系统的限制。通过设计多云,企业实现了多云环境中数据存储与保护的管理统一。
投资新的存储技术
企业需要新的方法满足GenAI的特定要求和庞大多样的数据集。这些前沿技术包括分布式存储、数据压缩和数据索引。
分布式存储通过将数据存放在多个位置提高GenAI系统的可扩展性和可靠性。例如在需求增加的情况下,企业可以跨多个节点快速扩展其存储需求,还可以复制其最关键的数据并将该数据保存在一个单独的位置以便在受到网络攻击时轻松检索。许多企业面临的另一大问题是成本。不过,企业可以通过数据压缩来缓解这个问题。数据压缩可以去除无用数据,减少企业的存储需求。通过更有效的数据分析和删除不必要的信息可以得到更精炼的版本,这反过来又减少了企业所需的存储量,从而节省成本。数据索引则能够提高检索能力,通过更加高效地将数据放置到特定位置,有助于实现更快、更有效的搜索和训练能力。上述三项技术的结合提升了数据存储的性能和效率,并节省了更多成本。对于寻求实现GenAI技术无痛过渡的企业领导来说,这三点是关键优先事项。
一步跃进时代前列,即刻引入并驱动有效训练和建模的想法虽然诱人,但要想取得成功,企业必须首先为GenAI奠定坚实的存储基础。尽管这可能不是企业领导最感兴趣的领域,但企业存储和管理数据的方式将在未来给企业带来更大的商业价值。
AI和GenAI既给企业带来了竞争优势,又为市场带来了变革。但务必注意以正确的方式进行部署,而不要在毫无准备的情况下盲目加入AI赛道,保证自己处于最佳的状态。前方机会无数,而企业只有采用具有前瞻性的技术,才能真正做到“近水楼台先得月”。