英特尔、AMD难以追赶，英伟达保持AI训练领先地位

训练（Training）是AI应用必不可少的前提，模型训练的优劣直接影响AI应用体验的优劣。与推理不同，AI训练通常要使用成百上千个AI加速器，并需要大量的电能。在训练领域，英伟达GPU一直占据市场主导地位，但也面临着包括英特尔、AMD及其他公司的竞争。

然而，最近公布的AI训练基准测试结果表明，相比于其他用于AI训练的加速器，英伟达GPU在全部9项测试中都位居榜首。而英特尔、AMD及谷歌等竞争对手的表现都远远不及英伟达。这意味着，英伟达GPU仍是训练场景性能表现最好的产品，而英伟达也一如既往，打遍天下无敌手！

这份AI基准测试结果是MLCommons公布，MLCommons是AI行业的一个松散联盟，每年都会发布多份AI芯片的基准性能测试报告。该联盟在上周公布了最新的基准测试结果数据——不同的AI芯片在训练神经网络执行各种任务时的表现数据，包括训练Meta的Llama大模型进行预测，和训练Stable Diffusion图像模型来生成图片等任务。

Training 4.0基准测试一共分为9种独立任务，大多数任务都是经过多年开发并已经成熟的神经网络，比如3D U-Net，是谷歌DeepMind在2016年公布的一个用于研究人体肿瘤检测的AI模型。同时，MLCommons每年也会增加或更新一些新的模型，比如在4.0中就增加了Meta的Llama大模型训练。

MLCommons的基准测试结果均是由会员提交的，比如戴尔、富士通、AMD、超微等。从基准测试结果来看，比如Meta的Llama 270B任务中，排名第一的是一个由1024块H100 GPU组成的英伟达系统，用时仅1.5分钟。在这一基准测试中，排名前23的均使用的是英伟达芯片，英特尔Guadi加速器的测试结果则名列第24位。当然，获得测试结果的系统配置可能有着很大不同。

但即使是在相同或相似配置下，比如都只使用8个AI芯片的配置下（这可能是企业最常见的配置），一台配备了两颗英特尔Xeon处理器的AI服务器，在Llama 270B训练中耗时78分钟。而与之对比的是红帽公司提交一组测试结果，在使用两个AMD EYPC处理器+8张H100配置的系统，仅耗时31分钟。

在OpenAI GPT-3基准测试中，配备了1024颗Gaudi芯片的英特尔系统训练耗时67分钟，配备了11616颗H100芯片的英伟达系统耗时3.4分钟，尽快AI芯片数量是英伟达的十分之一，但测试用时则20倍以上。当然，在训练场景下，对时间的优先级并不那么高，训练需要用一小时还是三分钟，在企业真实应用环境下的区别并不大。毕竟更少的配置意味着更低的成本。

除了英特尔之外，其他竞争对手也很难追赶英伟达。比如在图像识别基准测试中，在Resnet神经网络环境下，使用6颗Radeon RX7900芯片的AMD系统训练耗时167分钟，而使用6颗GeForce RTX 4090芯片的英伟达系统则耗时122分钟。

在GPT-3基准测试中，谷歌提交了4份使用TPU v5芯片的基准测试结果，其得分均远低于英伟达，训练耗时在12到114分钟之间，而英伟达仅耗时3.4分钟。

并且，纵观基准测试所使用的系统配置，英伟达的主导地位尤为明显。尽管提交基准测试结果的厂商很多，比如戴尔、富士通、HPE与联想等，但英伟达自行设计系统的测试成绩明显要好得多。

这就产生一个比较有意思的话题，因为当前提交测试结果所用的系统，无论是来自英伟达、英特尔、AMD，还是谷歌、富士通等第三方厂商，无论使用何种AI加速器，但其使用的CPU都是x86处理器（英特尔Xeon或AMD EPYC处理器）。但英伟达推出Grace处理器已经有两年了，如果英伟达自行设计系统的训练性能更好的话，那未来Grace与GPU结合似乎就成为必然，那这对英伟达会产生怎样的影响？

幸福双城资讯网

英特尔、AMD难以追赶，英伟达保持AI训练领先地位

数智大号