导读:科技圈两大顶流再度合作,云端AI算力步入万亿参数时代
GTC 2024不仅带来震撼业界的AI算力“新核弹”,更引发了云计算与AI产业的进一步融合。
3月20日,亚马逊云科技和英伟达宣布,英伟达新一代Blackwell GPU平台即将登陆亚马逊云科技。亚马逊云科技将提供NVIDIA GB200 Grace Blackwell 超级芯片和 B100 Tensor Core GPU,帮助客户更快、更大规模、更低成本地构建和运行万亿参数大模型。
英伟达与亚马逊云科技,一个是全球AI算力的领头羊,一个多年稳坐云计算行业头把交椅。双方再度强强联合,将加速生成式AI前沿技术发展。前者不断迭代为生成式AI而生的强大处理器,后者则致力于让最先进的AI算力在云端触手可得。
「智能进化论」认为,此次双方合作亮点可以从四个方面解读:
更大规模的模型:让数万亿参数大模型在云端可用英伟达Blackwell GPU在亚马逊云科技上的应用,将加速生成式 AI 前沿技术发展,并提升万亿参数大语言模型在云端的推理加速。
在大模型研发领域,万亿级参数规模代表了业界最前沿的水平。业界有消息称,GPT4的模型参数是1.8万亿。英伟达此次发布的Blackwell 架构GPU,目标就直指万亿参数大模型。
Blackwell B200是目前最强大的AI芯片,FP4性能高达20 petaflops,是上一代卡皇H100的5倍。
Blackwell GB200超级芯片是将2个Blackwell GPU和1个Grace CPU结合在一起,性能更加强大。与H100相比,Blackwell GB200对于大模型推理工作负载可实现30倍的性能提升,同时将成本和能耗降低25倍。
GB200 NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,通过第五代 NVIDIA NVLink™ 互连。其可实现720 petaflops的AI训练性能,或是1,440 petaflops(1.4 exaflops)的推理性能。一个GB200 NVL72机柜可以训练27万亿参数的AI模型。
GB200 同过去架构的 AI 芯片性能对比
很快,上述这些AI算力“核弹”就能在亚马逊云科技上使用了。
客户将能在亚马逊云科技上使用基于NVIDIA GB200 Grace Blackwell超级芯片和B100 Tensor Core GPUs的基础设施,从而在云上构建和运行数万亿参数的大语言模型。
客户还可以通过 NVIDIA DGX™ Cloud 获得GB200的超强性能。NVIDIA DGX™ Cloud是亚马逊云科技与英伟达共同开发的AI平台,提供了构建和部署大模型所需的专用基础设施和软件。
亚马逊云科技还将提供配置GB200 NVL72的英伟达Blackwell平台。通过亚马逊云科技强大的EFA网络连接、高级虚拟化的Amazon Nitro系统和Amazon EC2 UltraClusters超大规模集群等技术支持,客户能够在亚马逊云科技上扩展至数千个GB200 超级芯片。
更广泛的算力底座:云端运行英伟达GPU的最佳选择在Gartner发布的云基础设施和平台服务魔力象限中,亚马逊云科技已经连续12年位居领导者象限。提供更广泛的云上算力基础设施一直是亚马逊云科技的优势之一。
在生成式AI时代,通过与英伟达的深度合作,亚马逊云科技依然保持着这一领先优势。
“通过 AWS 与 NVIDIA 工程师的共同努力,我们将持续创新,使亚马逊云科技成为每一个想要在云端运行 NVIDIA GPU 用户的最佳选择。”对于此次合作,亚马逊总裁兼首席执行官 Andy Jassy 这样表示。
实际上,亚马逊云科技与英伟达的合作已有13年之久。从推出第一个亚马逊云科技上的GPU云实例至今,提供更广泛的英伟达GPU解决方案,一直是亚马逊云科技践行的目标。
比如,此前亚马逊云科技基于英伟达H100芯片推出了Amazon EC2 P5实例,客户能够在云上将其P5实例扩展到超过2万个英伟达H100 GPU。
此次合作,亚马逊云科技计划提供配备新 B100 GPUs 的 Amazon EC2 实例,并支持在 Amazon EC2 UltraClusters 中部署以加速超大规模生成式 AI 的训练和推理。
更安全的AI:加密技术强强联合,护航云上大模型安全大模型的安全问题一直是很多企业应用生成式AI的核心顾虑之一。此前,三星、摩根大通、花旗集团等知名企业出于数据泄露风险考量,纷纷加入禁用ChatGPT的行列。
此次合作,亚马逊云科技与英伟达将生成式AI安全又向前推进一步。
首先,Amazon Nitro 系统和 NVIDIA GB200 的结合将能够阻止未授权个体访问模型权重。模型权重的安全对保护客户的知识产权、防止模型被篡改以及维护模型的完整性至关重要。
GB200 支持对 GPU 之间 NVLink 连接进行物理加密,以及对 Grace CPU 到 Blackwell GPU 的数据传输进行加密,同时亚马逊云科技EFA (Elastic Fabric Adapter)也能够对服务器之间的分布式训练和推理过程的数据进行加密。同时,受益于Amazon Nitro系统,GB200系统能够将CPU和GPU的输入/输出功能卸载至专门的硬件中,全程保护代码和数据在处理过程中的安全。
其次,通过Amazon Nitro Enclaves 和 Amazon KMS,亚马逊云科技为客户在Amazon EC2 上使用 GB200创建了可信执行环境。从 GB200 实例内部可以加载安全区(Enclave),并且可以直接与 GB200 超级芯片通信,保护客户实例中的数据安全。
亚马逊云科技首席执行官Adam Selipsky认为:“英伟达下一代Grace Blackwell处理器是生成式AI和GPU计算的标志性事件。当结合亚马逊云科技强大的Elastic Fabric Adapter网络、Amazon EC2 UltraClusters的超规模集群功能,以及Amazon Nitro高级虚拟化系统及其安全功能时,我们就能够使客户更快、更大规模且更安全地构建和运行具有数万亿参数的大型语言模型。”
更前沿的探索:20,736颗GB200芯片,Ceiba项目支撑英伟达前沿创新2023年11月底的re:Invent2023全球大会上,亚马逊云科技与英伟达宣布了一项重磅计划——Ceiba项目。Ceiba是双方合作建造的世界上最快的 AI 超级计算机之一,专为英伟达自身的研究和开发而设计,并独家托管在亚马逊云科技上。
短短4个月后,在Blackwell的加持下,Ceiba项目迎来重大升级,将搭载20,736颗GB200 超级芯片,计算性能从65exaflops提升至414 exaflops,提升了6倍多。
据悉,英伟达将基于Ceiba项目推进大语言模型、图形(图像/视频/3D 生成)与仿真、数字生物学、机器人技术、自动驾驶汽车、NVIDIA Earth-2 气候预测等领域的 AI 技术,推动更多领域的生成式 AI 创新。
NVIDIA Earth-2 气候数字孪生云平台
现在的英伟达已经不仅仅是一家芯片公司,几乎涉足了所有热门的科技领域。可以说,Ceiba项目承载了英伟达最前沿的技术探索,也许下一个“核弹”级创新就来自Ceiba项目。将自家研发底座托管在亚马逊云科技上,再次证明了双方合作的战略深度与前瞻性。
英伟达创始人兼首席执行官黄仁勋表示:“人工智能正在以前所未有的速度推动突破,导致新的应用、商业模式和跨行业的创新。我们与亚马逊云科技的合作正在加速新的生成式AI能力的发展,并为客户提供前所未有的计算能力,以推动可能性的边界。”
结语生成式 AI 有望彻底改变它所触及的每一个行业。
对于任何一家想要在生成式AI时代进行一番创新的企业,顶尖的AI算力和云计算厂商已经在云端提供了最前沿的AI基础设施。
为生成式 AI 时代而生的算力和云服务已就绪,将成为千行百业AI创新的最佳平台。
文中图片来自摄图网