VASTData:从LLM时代的高性能存储到下一代数据平台

海外看科技 2024-10-23 03:14:00

作者:Cage

在传统的数据基建中,很少有大量非结构化数据需要高速存取,LLM 训练对这个能力提出了新的挑战。VAST Data 打造了专为 AI 深度学习优化的解决方案,尤其擅长处理 10 PB 量级的多模态数据。其独特的 DASE(Disaggregated Shared Everything)架构,让企业能够以近乎线性的效果扩展存储。

VAST 的优势不仅体现在技术架构上,它还通过软硬一体化的存储方案,为客户提供更完整的使用体验,成为了 Data Infra 领域最快达到 1亿 ARR 美金的公司之一。从Coreweave、Lambda Labs 这样的 GPU 云,到科研机构、金融量化机构,以及 Zoom、Agoda 这样的企业客户,VAST 的解决方案已经渗透到了多个高数据密度的行业。

未来 VAST 的目标并不仅仅是存储市场的“高性能”尖端部分,而是通过其灵活的架构和软件策略,进军通用存储与 AI 数据平台领域。这种愿景让它不仅是一家高性能存储公司,更是在多模态 AI 时代数据平台的先驱者。

💡 目录 💡

01 Investment Thesis

02 AI 时代的数据新需求

03 核心技术与产品

04 商业模式与商业化情况

05 市场竞争与团队

01.

Investment Thesis

1. VAST Data 站在 AI 和 GPU 计算的大趋势上,能力极其适合高性能的数据存取

Snowflake 客户的平均数据规模为 40 TB 左右,而 VAST Data 客户的数据规模可以达到 10 PBs。VAST 目前的客户集中在 GPU 数据中心和科学计算研究中心,原因就是他们最适合在 10+ PB 的数据量级下提供高速、易用且易扩展的产品。由于架构设计满足 AI 需求,VAST 与 NVIDIA 建立了独特的 GTM 合作伙伴关系。

2. VAST Data 独特的 DASE 架构使其有极强的 scale-up 能力

VAST 的解耦、共享一切(DA Share-Everything)架构是 Snowflake 存算分离级别的架构创新,颠覆了公有云的不共享(Share-Nothing)架构,平衡了规模、速度和成本。客户可以增加计算来解决 I/O 网络瓶颈问题,而不用大幅提升储存投资。接近 linearly scale 的规模化能力是 VAST 最大的差异化优势。

3.VAST Data 有机会颠覆存储市场:从高性能存储扩展到通用存储

传统存储市场可以被分为金字塔形,高性能存储只负责金字塔尖的部分。VAST namespace 的网络效应未来有机会打破金字塔,LLM 能让大量数据活起来,高性能存储能占据更大的市场。

4.VAST Data 不只是存储公司,而是 next-gen AI 数据平台

VAST 的vision 是构建一个全面的深度学习和非结构化数据平台,而不是传统存储解决方案。他们的盈利模式已经是一家软件供应商,独立于硬件库存。这种灵活性使 VAST 能够根据新技术调整其软件。下一步 VAST 正在向 AI 时代的数据仓库公司转型,提供可以互联各种平台的通用存储和分析方案。

Key Risk

估值风险:估值 $ 9.1 B,基于 on-prem 存储市场的空间,估值比较难 justify。

增长放缓的风险:AI 模型训练需求放缓,推理中可能不刚需高性能存储。

关键问题:prompt caching 这样的方案是否能驱动 All-flash 的存储方案?

云巨头的竞争:AWS、GCP 和 Azure 等可能开发自己的存储平台,减少对 VAST on-prem 方案的需求。VAST 只能在当前的 on-prem 350 亿美元的市场中扩大占比到 10% 来 justify 估值。

扩展能力的不确定性:database、 data engine 和存储是完全不同的市场策略,VAST 是否能够扩展到新市场还不好判断。历史上的参考案例只有 Oracle。

02.

AI 时代的数据新需求

AI 时代的数据管线和 BI 时代发生了非常大的改变:

• BI 数据管线最终产出是数据分析,为企业和产品决策服务;AI 数据管线的最终产出是模型,直接决定了产品能力且会进一步生成数据

• BI 数据管线中有大量的数据聚合,数据量都大规模缩减;AI 管线没有那么明显的聚合效果,且每一步数据量都比 BI 大3个数量级以上

具体可以参考下面的图和表格(来自VAST Youtube session 视频):

BI data pipeline

AI data pipeline

由于这样的 pipeline 差异,对下一代的数据平台就有了新的需求。Vast Data 就是在这样的需求中打造了自己的产品:

03.

核心技术与产品

VAST 有一本非常详尽的技术白皮书,读完发现他们有几个核心差异化优势:

• 高性能高 scalability:Vast 在全闪存架构下能 scale 到 100 PB 量级下保持很高的性能,目标的规模上限是 EB 级别(1 PB = 1024 TB,1 EB = 1024 PB)。

• Transactional + analytical 不冲突:DASE 架构让读写能完全并行,也不再有传统的交易/分析数据库互斥。

• 全局一致性:在每一个位置都可以高效访问到全部数据

而这些优点都可以归功于 DASE 这个关键的架构设计。

DASE: 核心架构

VAST 在设计中最关键的选择是 Disaggregated Shared Everything (DASE) 这样的架构,和主流公有云和分布式系统的 SN (Shared-nothing) 架构是完全不同的。这个架构创新是非常重要且有技术壁垒的,其重要性可以类比 Snowflake 对云数据仓库存算分离的创新。

2005 年 NS 系统的早期重要论文 Google file system 发布,分布式系统这个领域开始蓬勃发展。当时的分布式系统是数千个节点在管理着几百 TB 数据,今天一个节点就能存储这样的数据量。

上图为 share nothing 架构,每一个node 有CPU、存储和内存;而下图为 share everything 架构,将计算单元和存储单元分离了。

同时,node 之间的互联传输速度比当时快了几个数量级:VAST 需要 100 Gbps Ethernet or Infiniband interconnect。以上两个背景让 DASE 在最近才成为可能。

在 DASE 架构下,数据对系统中的每一个节点都是 accessible 的,这种 share-everything 的方式让节点之间不再需要频繁沟通来寻找和拼凑数据。实际参与的节点有两种:

• CNode 是专门负责逻辑操作的计算节点,比如找到从哪里读取关键数据。他们是跑在 x86 和 ARM CPU 上的容器。所有 CNodes 能通过 NVMe Fabric 的互联层直接读取到数据,所以他们不会彼此沟通

• DNode 是实际和硬件存储交互的数据节点。他们不执行逻辑操作,可以在类似与 DPU 这样的专用硬件上跑

• CNode 直接访问所有数据、元数据和系统状态。系统状态存储在 NVMe SSD 上,形成高可用的 NVMe JBOFs(a Bunch of Flash),这些存储设备通过 NVMe fabric 互联

这样的设计让存储端和计算端可以解耦,根据客户实际的使用需求进行 scale-up,而且让硬件提升的性价比更高:如果需要更多存储,就增加更多DNode;如果遇到计算瓶颈需要更多 I/O,那就增加更多 CNode;每一次增加 node 都可以在之后持续的发挥性能。

在这种架构中,所有计算都由无状态容器中的计算节点(CNode)执行。这使得集群计算资源可以独立于存储容量进行扩展。

DASE 架构支持高达 100PB 的扩展能力,并且在一年的时间里只有几秒钟可能会出现宕机。通过使用无状态存储服务器和软件驱动的智能,DASE 实现了极高的系统弹性。

0 阅读:0

海外看科技

简介:感谢大家的关注