英特尔、AMD难以追赶,英伟达保持AI训练领先地位

数智大号 2024-06-20 15:17:35

训练(Training)是AI应用必不可少的前提,模型训练的优劣直接影响AI应用体验的优劣。与推理不同,AI训练通常要使用成百上千个AI加速器,并需要大量的电能。在训练领域,英伟达GPU一直占据市场主导地位,但也面临着包括英特尔、AMD及其他公司的竞争。

然而,最近公布的AI训练基准测试结果表明,相比于其他用于AI训练的加速器,英伟达GPU在全部9项测试中都位居榜首。而英特尔、AMD及谷歌等竞争对手的表现都远远不及英伟达。这意味着,英伟达GPU仍是训练场景性能表现最好的产品,而英伟达也一如既往,打遍天下无敌手!

这份AI基准测试结果是MLCommons公布,MLCommons是AI行业的一个松散联盟,每年都会发布多份AI芯片的基准性能测试报告。该联盟在上周公布了最新的基准测试结果数据——不同的AI芯片在训练神经网络执行各种任务时的表现数据,包括训练Meta的Llama大模型进行预测,和训练Stable Diffusion图像模型来生成图片等任务。

Training 4.0基准测试一共分为9种独立任务,大多数任务都是经过多年开发并已经成熟的神经网络,比如3D U-Net,是谷歌DeepMind在2016年公布的一个用于研究人体肿瘤检测的AI模型。同时,MLCommons每年也会增加或更新一些新的模型,比如在4.0中就增加了Meta的Llama大模型训练。

MLCommons的基准测试结果均是由会员提交的,比如戴尔、富士通、AMD、超微等。从基准测试结果来看,比如Meta的Llama 270B任务中,排名第一的是一个由1024块H100 GPU组成的英伟达系统,用时仅1.5分钟。在这一基准测试中,排名前23的均使用的是英伟达芯片,英特尔Guadi加速器的测试结果则名列第24位。当然,获得测试结果的系统配置可能有着很大不同。

但即使是在相同或相似配置下,比如都只使用8个AI芯片的配置下(这可能是企业最常见的配置),一台配备了两颗英特尔Xeon处理器的AI服务器,在Llama 270B训练中耗时78分钟。而与之对比的是红帽公司提交一组测试结果,在使用两个AMD EYPC处理器+8张H100配置的系统,仅耗时31分钟。

在OpenAI GPT-3基准测试中,配备了1024颗Gaudi芯片的英特尔系统训练耗时67分钟,配备了11616颗H100芯片的英伟达系统耗时3.4分钟,尽快AI芯片数量是英伟达的十分之一,但测试用时则20倍以上。当然,在训练场景下,对时间的优先级并不那么高,训练需要用一小时还是三分钟,在企业真实应用环境下的区别并不大。毕竟更少的配置意味着更低的成本。

除了英特尔之外,其他竞争对手也很难追赶英伟达。比如在图像识别基准测试中,在Resnet神经网络环境下,使用6颗Radeon RX7900芯片的AMD系统训练耗时167分钟,而使用6颗GeForce RTX 4090芯片的英伟达系统则耗时122分钟。

在GPT-3基准测试中,谷歌提交了4份使用TPU v5芯片的基准测试结果,其得分均远低于英伟达,训练耗时在12到114分钟之间,而英伟达仅耗时3.4分钟。

并且,纵观基准测试所使用的系统配置,英伟达的主导地位尤为明显。尽管提交基准测试结果的厂商很多,比如戴尔、富士通、HPE与联想等,但英伟达自行设计系统的测试成绩明显要好得多。

这就产生一个比较有意思的话题,因为当前提交测试结果所用的系统,无论是来自英伟达、英特尔、AMD,还是谷歌、富士通等第三方厂商,无论使用何种AI加速器,但其使用的CPU都是x86处理器(英特尔Xeon或AMD EPYC处理器)。但英伟达推出Grace处理器已经有两年了,如果英伟达自行设计系统的训练性能更好的话,那未来Grace与GPU结合似乎就成为必然,那这对英伟达会产生怎样的影响?

0 阅读:31

数智大号

简介:聚焦数字化转型,传播数智化成功案例、分享新行业实践