CPU 与 GPU 的融合:现代计算的 “8087 时刻”
过去,CPU 依赖外部数学协处理器来提升浮点性能。如今,这一趋势正在逆转。随着 NVIDIA GH-200 处理器和 AMD MI300A APU 的推出,GPU 已被纳入 CPU 架构中。
GPU 嵌入式处理器的崛起
GPU 以其加速数学处理的强大功能而闻名。通过将 GPU 集成到 CPU 中,NVIDIA 和 AMD 已实现 HPC 性能的显著提升。
外部性能硬件的吸收
这一融合标志着计算领域的“8087 时刻”,类似于早期 CPU 吸收可选数学协处理器。它预示着外部性能硬件逐渐被 CPU 自身吸收的未来趋势。
再见 PCI
GPU 与 CPU 内存连接瓶颈
传统上,英伟达和 AMD 的 GPU 通过 PCI 总线与 CPU 通信。由于 CPU 和 GPU 拥有独立的内存域,数据必须通过 PCI 接口在两者之间移动,造成带宽瓶颈。
英伟达 Grace Hopper GH200 GPU
英伟达的 Grace Hopper GH200 GPU 通过 900 GB/秒的 NVLink-C2C 连接解决这一瓶颈,比传统 PCIe 总线快约 14 倍。此外,GH200 实现了单一的 CPU-GPU 共享内存域,消除了数据移动需求。
GH200 内存架构
GH200 拥有高达 480 GB 的 LPDDR5X CPU 内存和 96 GB 或 144 GB 的 HBM3 GPU 内存。这些内存总和为 576 GB 至 624 GB,在 CPU 和 GPU 之间完全互通。
AMD Instinct MI300A APU
AMD 的 Instinct MI300A APU 也采用了单一内存域,通过 Infinity Fabric 在 CPU 和 GPU 之间一致共享 128 GB HBM3 内存。封装峰值吞吐量达到 5.3 TB/秒。虽然目前不支持外部内存扩展,但 CXL 将提供未来升级潜力。
单一存储域的优势
GH200 和 MI300A 的单一存储域消除了传统方法中的 GPU 内存限制。这对于需要在内存中加载大型模型并使用 GPU 运行的高性能计算 (HPC) 和生成式人工智能 (GenAI) 至关重要。
统一内存扩展
GH200 可通过外部 NVLink 连接创建高达 20 TB 的统一内存,进一步突破内存容量限制。
离你的桌面并不远
从高端技术到低成本大宗商品市场:高性能计算的转变
高性能计算 (HPC) 正在经历从昂贵的新技术向更经济的大宗商品市场转型的趋势。一个显着的变化是迁移到单一内存域,将从多核到高级内存的所有组件从高端转移到“移动”设备。
GPTshop.ai 的 GH200 工作站:为 HPC 和 GenAI 提供低成本解决方案
在 Linux 基准测试网站 Phoronix 上,测试人员 Michael Larabel 在 GH200 工作站上运行了 HPC 基准测试。该系统采用 GPTshop.ai 的 Grace Hopper 超级芯片,提供令人印象深刻的 576GB 内存,双 2000+ W 电源和灵活的配置选项。
低噪音、高功率:非数据中心环境的理想选择
GH200 的一个独特功能是其 TDP 可编程范围为 450W 至 1000W(CPU + GPU + 内存),使其非常适合非数据中心环境。此外,其默认风冷噪音仅为 25 分贝,提供安静的操作体验。液体冷却也是一项选择。
具有成本效益的单域内存解决方案
尽管 GH200 并非低价产品,但其起价为 47,500 欧元(约合 41,000 美元),考虑到目前 Nvidia H100 PCIe GPU 的价格在 3 万至 3.5 万美元之间,再加主机系统成本,这个价格就变得极具吸引力。
GPTshop 工作站提供 576GB 单域内存,对于需要大量 CPU-GPU 内存的 HPC 和 GenAI 用户来说,这是一个极具价值的优势,大大超过了 H100 GPU 80GB 内存的限制。
初步基准
借助 GPTshop,Phoronix 可远程执行多项基准测试。基准应被视为初步结果,而非最终性能评估。这些测试仅针对 CPU,未加入 Hopper A100 GPU。因此,基准图并不完整。Phoronix 计划未来扩展测试至基于 GPU 的应用程序。
基准环境采用 Ubuntu 23.10、Linux 6.5 及 GCC-13 作为标准编译器。为确保测试一致性,采用了类似环境对可比较处理器进行测试,包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max。完整列表请见 Phoronix 网站。
遗憾的是,无法获得基准测试运行期间的功耗数据。据 Phoronix 报告,Nvidia GH200 目前尚未在 Linux 上公开可用于读取其功率/能源使用情况的 RAPL/PowerCap/HWMON 接口。尽管系统 BMC 可通过 Web 界面显示整个系统的功耗,但这些数据无法通过 IPMI 访问。
尽管存在这些限制,本研究首次在 Nvidia 之外的环境中对 GH200 进行了一些关键基准测试。
好奥莱 HPCG
Arm GH200 性能表现
在 HPCG 内存带宽基准测试中,Arm GH200 以 42 GFLOPS 的性能表现脱颖而出,高于 Xeon Platinum 8380 2P(40 GFLOPS)和 Ampere Altra Max(41 GFLOPS)。
GH200 在 NWChem 基准测试中同样表现出色,使用 72 核 Arm GH200,NWChem(C240-Bucky Ball)运行时间仅为 1404 秒,仅次于领先者 128 核 Epyc 9554(1323 秒)。
值得注意的是,72 核 Arm Grace CPU 的性能接近 Ampere Altra Max 128 核 Arm 处理器的两倍。
即将发生的事情
高端 CPU 融入 GPU 架构,推动 AI 发展
NVIDIA GH200 和 AMD MI300A 引入了新的处理器架构,将 GPU 集成到 CPU 中。与过去吸收数学协处理器类似,这标志着高端 CPU 开始吸收 GPU,成为“专用”处理器。
GenAI 需求推动价格下降
尽管这些高端处理器目前价格昂贵,但对生成式 AI (GenAI) 的巨大兴趣可能会将它们的价格推向商品价位。随着更多基准的出现,这一趋势将持续发展。
个人高性能工作站的崛起
拥有充足内存的个人高性能工作站的出现具有重要意义。它们可以在办公室运行大型语言模型 (LLM),并支持诸如大内存 GPU 优化高性能计算 (HPC) 应用程序等工作负载。
数据中心和云依然重要,但个人工作站提供“重置按钮”
数据中心和云仍然是计算的主力,但个人高性能工作站的出现提供了灵活性。用户可以在本地运行 LLMs 和 HPC 应用程序,而无需依赖云或数据中心。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-
合毛线.问过蓝厂未?绿𠂆搞C P U? 他搞得来吗?比中国C P U还要差....