英特尔今天正式推出了用于 AI 工作负载的 Gaudi 3 加速器。新处理器的速度比 Nvidia 广受欢迎的 H100和H200 GPU(用于 AI 和 HPC)要慢,因此英特尔将其Gaudi 3的成功押注于其较低的价格和较低的总拥有成本 (TCO)。
5nm最强AI芯片Gaudi3发布英特尔作为半导体行业的巨头,此次发布的 Gaudi 3 芯片可谓是其在人工智能领域的战略重器。这款芯片采用了先进的台积电 5nm 工艺制造,在性能上实现了大幅提升。据英特尔表示,其 FP8 AI 算力提升了两倍,BF16 AI 算力提升了四倍,同时网络带宽和内存带宽也有了显著的提高。
这样卓越的性能表现,让 Gaudi 3 在处理大规模语言模型和生成式 AI 模型时,具备了更高的计算效率和更低的能耗。英特尔更是宣称,Gaudi 3 在性能上超过了英伟达的 H100 芯片,在同等条件下,训练速度比 H100 快 50%,推理吞吐量提高 50%,能效平均提高 40%。这意味着无论是用于训练复杂的 AI 模型,还是运行实际的 AI 应用,Gaudi 3 都能提供更为出色、稳定且节能的解决方案。
而且,Gaudi 3 还提供了多种灵活的形态,包括 OAM 兼容夹层卡、通用基板和 PCIE 扩展卡等,能够满足不同应用场景的需求,无论是数据中心、云计算平台,还是边缘计算设备,都能找到其用武之地。
从整个行业来看,英特尔 Gaudi 3 芯片的发布,无疑给 AI 芯片市场带来了新的活力与机遇。它将与英伟达等竞争对手在 AI 芯片领域展开更为激烈的角逐,推动行业不断向前发展。
对于中国人工智能的发展而言,英特尔 Gaudi 3 芯片的发布也带来了一定的影响。一方面,它为中国的人工智能企业提供了新的技术参考和性能标杆,促使国内企业在芯片研发上更加努力,不断提升自身的技术水平和创新能力,以应对国际竞争。另一方面,也可能在一定程度上加剧国内 AI 芯片市场的竞争,促使国内企业加快产品迭代和优化升级的步伐。
大模型训练推理能力强化50%英特尔介绍,Gaudi 3采用5纳米工艺制造,专为高效的大规模 AI 计算而设计,将为AI系统提供通过通用以太网标准连接的数以万计加速器支持。对于那些希望大规模配置生成式AI的企业来说,在大语言模型(LLM)和多模态模型的AI训练和推理方面,Gaudi 3可以实现性能和生产率的大飞跃。
英特尔称,对比前代,Gaudi 3可提供四倍的浮点格式BF16 AI计算能力,内存带宽提升1.5倍,服务于大规模系统扩展的网络带宽提升两倍。
对比英伟达的芯片H100,如果应用于7B和13B参数的Meta Llama2 模型以及175B参数的OpenAI GPT-3模型中,Gaudi 3预计可以让这些模型的训练时间平均缩短50%。
此外,应用于7B和70B参数的Llama以及180B参数的开源Falcon模型时,Gaudi 3的推理吞吐量预计将比H100平均高50%,推理功效平均高40%。而且,在较长的输入和输出序列上,Gaudi 3有更大的推理性能优势。
免责声明:
1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。
2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。
3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。