“真正认真对待软件的人应该自己制造硬件。”
这是被誉为个人计算机之父的艾伦·凯(Alan Kay)博士的一句被广为传播的话。这一趋势正在云计算行业发生。目前,全球主流云计算厂商都已加入自研芯片的行列。如果追溯这一趋势的发展,亚马逊云科技无疑是引领者。
在re:Invent 2022大会,亚马逊云科技旗下三大芯片体系都有新发布,包括第五代虚拟化芯片 Amazon Nitro v5、ARM架构Amazon Graviton3E 处理器、Amazon Inferentia2 机器学习加速推理芯片,以及由最新芯片支持的新实例。
在自研芯片方面,亚马逊云科技有哪些最新进展?亚马逊云科技如何看待云计算产业在硬件方面的创新趋势?
专用芯片,未来五大技术趋势之一“2023年,专用芯片的使用将迅速增加。”亚马逊 CTO Werner Vogels 将“专用芯片成为主流”列为2023年及未来五大技术趋势预测之一。
Werner Vogels认为,过去定制化的专用芯片和专用硬件在消费领域得到迅速发展,在商业领域软件和硬件的更新周期通常较长。然而,随着定制化专用芯片的普及和采用,这种情况将在未来几年迅速发生改变。
“亚马逊云科技近年来在芯片设计上投入大量资金。因为我们知道,云中运行的工作负载在定制芯片上运行,具有更好的性能以及更高的成本效益。”Werner Vogels表示。
在专用芯片的理念下,亚马逊云科技的自研芯片分为三大体系,包括:
五代虚拟化芯片Nitro系列;
三代基于ARM架构的CPU处理器Graviton系列;
用于加速机器学习推理的两代Amazon Inferentia芯片,以及用于加速机器学习训练的Amazon Trainium芯片。
亚马逊云科技大中华区解决方案架构部总监代闻表示,“Nitro v5 、Graviton 3E 系列芯片的发布反映出当前的一个大趋势——想提供一流的云服务,一定要具备底层硬件能力。一个优秀的云厂商,在满足客户需求的时候,哪些是应该软件来做,哪些是应该硬件来做,需要良好的规划和路线。”
“硬件不是为了创新而创新,通用的硬件加软件优化的方式已经不够高效了,或者说内部底层功能做起来不够灵活了,跟不上创新速度了,所以反过来才做的硬件。”
Nitro芯片,长达10年的硬件虚拟化积累如果回顾2006年以来亚马逊云科技发布的所有Amazon EC2实例数量,会发现2017年是一个关键节点。
2017年之后,Amazon EC2实例数量增长进入了快车道。截至2022年底,Amazon EC2实例已经达到600+,覆盖各种计算平台。这很大程度要归功于虚拟化芯片Nitro。
“Nitro最大的创新点就是它把亚马逊云科技整个技术演进和架构进行了解耦。”亚马逊云科技大中华区产品部总经理陈晓建表示。
整体来看,Nitro芯片为亚马逊云科技带来了三大价值:
第一,更快的创新
经历了10年的迭代,Nitro芯片已经成功验证了硬件支撑虚拟化的技术路线。传统服务器中,计算虚拟化通常要占用30%的系统资源。Nitro芯片将网络、存储、管理、安全和监控的功能从服务器解耦,交给专门的硬件处理,实现了虚拟化管理程序占用服务器系统资源不到1%。
通过专用硬件卸载网络和存储等工作负载,Nitro大大减少了开发Amazon EC2实例的工作量,实现了灵活设计并快速交付 EC2实例类型。
第二,更高的安全性
Nitro打造了硬件级别的安全机制。以最新发布的Nitro V5为例,除了拥有自身安全芯片和专用的安全芯片TPM,硬件环境Enclaves还可以实现网络和存储之间的隔离。
第三,更高的云服务性价比
底层芯片性能升级带给云计算客户最大的收益就是提升了云服务的性价比。相比前代,Nitro V5数据包转发能力提升了60%,延迟减少了30%,每瓦特的性能提升了40%。
采用 Amazon Nitro v5的Amazon EC2 C7gn 实例,与当前一代网络优化型实例相比,为每个 CPU 提供了多达2倍的网络带宽,同时将每秒数据包转发性能提升50%,为网络密集型工作负载提供了超高性能和性价比。
Graviton芯片,在高性能计算领域不断突破Graviton系列芯片自2018年发布以来,经历了三代迭代。最新发布的Graviton3E在高性能计算领域进一步突破。与现有的Graviton3相比,Graviton3E提供高达2倍的向量计算性能,可以广泛应用于向量计算、浮点计算、AI/ML、HPC等应用场景。
采用Graviton3E 芯片的Amazon EC2 Hpc7g 实例,可以为高性能计算工作负载提供超高性价比。与当前一代C6gn 实例相比,Hpc7g 实例浮点性能提高了2倍;与当前一代Hpc6a 实例相比,性能提高了20%。
Graviton不只是一个底层芯片,亚马逊云科技还在不断完善Graviton生态,打造了众多基于Graviton的托管云服务,包括Amazon EMR、Amazon Aurora、Amazon DocumentDB等等。
自Graviton系列芯片推出以来,已经有大量客户将工作负载从传统的x86架构迁移到Graviton。亚马逊云科技支持客户在一两周甚至几天时间内完成从x86到Graviton的切换,在无需改动上层程序的情况下,轻松实现将云服务的性价比提升40%。
Trainium和Inferentia,机器学习训练与推理专用芯片过去数年,机器学习芯片每几年就会有一倍或数倍的提升,这个速度相比于通用计算硬件来说已经很快,但仍然不足以应对AI训练模型复杂度的挑战。
为此,亚马逊云科技提出了分布式训练技术,把一个模型通过多个节点,通过一个网络协同计算、协同训练的方式来解决。这也是亚马逊云科技在机器学习方面的技术路线,不仅仅是单个AI芯片性能的提升,还需要算力与存储、网络性能的整体突破。
采用推理芯片 Inferentia2的Amazon EC2 Inf2 实例,是专门为运行多达1,750亿个参数的大型深度学习模型而构建的,与当前一代 Amazon EC2 Inf1 实例相比,可提供高达4倍的吞吐量,降低多达10倍的延迟,且成本更优,延迟更低。
Trn1实例可以为机器学习训练提供高性价比,以具备万亿级参数的大模型GPT3两周的训练量为例,如果用基于GPU服务器的P3dn实例需要600个实例,用最新一代GPU实例P4d需要128个实例,但Trn1只需要用96个。
写在最后从亚马逊云科技自研芯片的最新进展可以看出,经过十几年的发展,云计算已经走到了硬件创新成为行业主要驱动力之一的阶段。那些率先体验到专用芯片优势的企业将带动更多企业加速尝试,扩大规模化效应。
“成本节约和性能优势将带来更多的实验、创新以及采用,并最终为其他特定工作负载提供更多的定制芯片,这是一个良性循环。”亚马逊 CTO Werner Vogels表示。
END
本文为「智能进化论」原创作品。