Arm宣布推出Armv9 CPU 产品组合的最新成员Cortex-X925,这是一款“终极性能”处理器,之前代号为“黑鹰”。这是高通 Snapdragon 8 Gen 3 和联发科天玑 9300 中 Cortex-X4 的直接后继产品,并将包含在未来的高端智能手机中。
Arm Cortex-X925:单线程 IPC 的一大飞跃新的 Cortex-X925是 2024 客户端计算子系统 (2024 CSS) 的一部分,该子系统由DSU-120、互连子系统和Immortalis GPU组成。全新的Cortex-X925和Cortex-A725以及更新的Cortex-A520均已迁移到Arm的3nm工艺节点,并无缝集成到第二代Armv9.2架构中。 Armv9.1增加了对GEMM和BFloat16的支持,Armv9.2增加了对SME(SVE2)的支持。
Cortex-X925 和其他 Cortex-X 系列因其不符合标准大小内核而引人注目。 Arm 正在使性能、功耗和面积之间的权衡变得更加宽松,以支持性能。
从架构上来说,Arm 正在做出一些相当大的改变。
记忆力改善新 Cortex-X925 的大部分改进都与内存相关(直接和间接)。与前几代产品一样,Cortex-X925 具有预运行分支预测器,它不仅可以执行指令提取,还可以在使用之前找到正确的指令流。 Cortex-X925 将分支预测器的指令窗口大小加倍,从而增加了条件分支的带宽。此外,每一代都可以看到准确性的提高。在 ISO 配置中,据说 Cortex-X925 每千指令错误预测 (MPKI) 较低。
核心本身的进给也得到了显著改善。因此,与上一代相比,Cortex-X925 的 L1 指令缓存 (I$) 带宽也增加了一倍,L1 指令翻译查看端缓冲区 (iTLB) 的大小也同样增加。这与增加现金银行业务尤其相关,理论上可以提供更高的有效带宽。这与后端矢量管道数量的增加同时增加了带宽。另外值得注意的是,X925 现在提供高达 3 MiB 的私有二级缓存容量,是上一代容量的 1.5 倍。
在执行方面,总共增加了四个加载执行单元。这表明在过去的几代中,内存子系统经历了多次重新平衡尝试,公共 AGU 的数量减少,加载 AGU 的数量增加,然后再次返回到之前的配置。这提醒我们,平衡复杂的管道与所有现有工作负载是非常困难的。总的来说,新的 Cortex-X925 支持 64B/周期(4x16B 速率)。此外,Cortex-X925 还比 LSU 进行了额外的架构改进,包括改进的存储到加载转发。
后端Cortex-X925的乱序窗口非常大,是上一代的两倍。这意味着 Cortex-X925 的簿记容量为 768 条运行指令(或 1,536 条融合操作)。 Arm表示,虽然核心管线宽度大致相同,但由于消除了前几代的限制,X925将表现出更高的利用率。换句话说,理论上的峰值指令流吞吐量与X4相同,但由于流水线架构的变化,新的X925的实际峰值指令流据说更高。
X925 直接针对 AI 和矢量应用,添加了两个新的高级 SIMD 管道,使总数达到 6 个 128 位管道。此外,整数 ALU 管道现在能够进行更复杂的两周期运算。
总体而言,据说许多后端缓冲区总体增长了 25% 到 40%。总的来说,Arm 表示它已经改善了各种应用程序中的前端获取停顿和后端内存停顿。
表现Arm 表示,新的 Cortex-X925 提供了 Cortex-X 系列历史上最高的性能提升。 Arm 提供的有关 IPC 的图表之一如下所示。虽然图表很难理解,但实际数字却非常扎实。与标准的 2023 年优质 Android 设备相比,主频为 3.8 GHz 的 Cortex-X925带来了 36% 的性能提升。在 ISO 频率下,Cortex-X925据称可提供约 17% 的 IPC 改进。通过完全优化的系统和软件堆栈以及最佳情况,ICP似乎提高了约 25%。
在 Speedometer2 和 Geekbench 6 等一些移动行业基准测试中,Arm 声称,与之前的 Cortex-X4 相比,新的 Cortex-X925 在 ISO 频率和 ISO 内存方面提供了约 15% 的 IPC 提升。它还针对基于人工智能的工作负载进行设计和优化,具有专用的人工智能加速器和软件优化,以提高人工智能处理效率。该核心可以处理复杂的人工智能任务,从自然语言处理到计算机视觉,速度高达 80 TOPS(每秒 1 万亿次操作) 。 Arm 的 Kleidi AI 和 Kleidi CV 库进一步支持这些功能,为开发人员提供构建高级 AI 应用程序所需的工具。
顺便说一句,Arm还没有进入NPU和AI加速器领域。相反,他们允许像联发科这样的合作伙伴整合自己的NPU等,让Core Cluster提供必要的支持和集成能力。 CSS 平台拥有参考软件堆栈和优化的库,为开发人员提供了坚实的基础。全面的 Arm Performance Studio 提供了先进的工具环境,帮助开发人员优化新架构的应用程序。
Cortex-X925 还针对 3nm 工艺节点进行优化,因此 ISO Performance 表示,新的 Cortex-X925 将以更高的效率运行(即更低的功耗)。此外,Cortex-X925 还集成了先进的电源管理功能,例如每核 DVFS 和改进的电压调节。这些功能有助于更有效地管理功耗,使内核能够在不影响能源效率的情况下提供高性能。这种平衡对于需要持续性能和长电池寿命的移动设备尤其有利。
全新 Arm Cortex-X925 将在今年年底出现在主要高端移动产品中。