英特尔终于公布LunarLake细节,与高通、AMD、苹果展开AIPC大战

碳材谈科技 2024-06-08 15:15:11

PC TOPS 竞争日趋白热化。继高通Snapdragon之后然而,在AI PC方面,Lunar Lake安装的NPU(神经处理单元)拥有48TOPS的AI性能,与AMD Ryzen AI 300声称的50TOPS略有差距。

Lunar Lake是一款笔记本和移动SoC,基于去年的Meteor Lake而开发,重点是提高能效和优化整体性能。

Lunar Lake 利用先进的调度机制,根据工作负载需求动态地将任务分配给高效核心(E 核心)或性能核心(P 核心),以实现最佳功耗并确保性能。英特尔线程控制器和 Windows 11 在此过程中发挥着关键作用,指导操作系统调度程序根据工作负载强度实时平衡效率和计算能力。

这里值得注意的是,一直以来作为Intel CPU标志的超线程技术(HT)已经被废除了。 HT 是一项允许多个线程在一个 CPU 核心上运行的功能,从而可以同时执行许多任务,但该功能将从 Lunar Lake 中停止。 (AMD似乎还在继续类似的功能)

原因很复杂,但英特尔表示这是“不必要的”。即使禁用了 HT 多线程,Lunar Lake 系列 P 核心也比上一代 Meteor Lake CPU 中的相同核心快 14%。这些事会晚一些讨论。

目录月湖概况新性能核心“狮子湾”高效能核心(E-core)Skymont的性能提升十分显着。“NPU 4”拥有48TOPS第二代集成GPU“Xe2 GPU”I/O:Thunderbolt 4、Thunderbolt Share、Wi-Fi 7 包括月湖概况

英特尔的Lunar Lake是一种chiplet设计,将芯片与各种功能结合在一起,英特尔称之为“tiles”。Lunar Lake 值得注意的是,它将是第一个所有块都不是由英特尔自己制造的 SoC。

英特尔终于公布“月球湖”细节,与高通、AMD、苹果展开AI PC大战1

整个计算瓦片,包括Lunar Lake的P和E核心,将在台积电的N3E节点上制造,SoC瓦片将在台积电的N6节点上制造。

然而,英特尔的技术在封装方面很有用。使用 Foveros 封装技术,将计算块和 SoC(现在的“平台控制器”)块放置在基础块的顶部,在块之间提供高速/低功耗路由,并且芯片提供与世界其他地区及其他地区。

也许对用户来说更重要的是,用户无法再像 MacBook 那样更换配备 Lunar Lake 的 PC 上的内存。这意味着Lunar Lake平台在芯片封装本身中将配备高达32GB的LPDDR5X内存。 LPDDR5X内存由成对排列的64位内存芯片组成,提供128位的总内存总线宽度。因此,Lunar Lake 的内存配置最终将由英特尔发货的 SKU 决定。

英特尔终于公布Lunar Lake细节,与高通、AMD、苹果展开AI PC大战 2

对于未来备受关注的AI功能,Lunar Lake集成了一款名为“NPU 4”的全新NPU。 NPU 4在INT8上表现出高达48TOPS的性能,并符合微软的“Copilot+ PC”标准。

Lunar Lake 还配备了新的集成 GPU。 “Xe2”iGPU拥有67TOPS的AI性能和Meteor Lake图形性能的1.5倍。增强的 XeSS 内核还提高了图形和计算性能。

至于结合NPU、CPU、GPU的整个系统的芯片性能,Intel表示Lunar Lake最高将达到120TOPS。

新性能核心“狮子湾”

英特尔终于公布Lunar Lake细节,与高通、AMD、苹果展开AI PC大战 3

Intel更新的Lunar Lake性能核心(P核心)采用了名为“ Lion Cove ”的新架构。

借助 Lion Cove,IPC(每周期执行的指令)平均提高了 14%,这是一个显着的性能改进。英特尔似乎做出了大胆的决定,在优化混合架构的核心时,删除了超线程(HT)和所有支持其性能增强功能的逻辑块。

英特尔终于公布“月球湖”细节,与高通、AMD、苹果展开AI PC大战 4

英特尔架构师表示,HT 在线程密集型工作负载中将 IPC 提高了约 30%,但对于在线程密集型工作负载中利用功耗和面积效率更高的 E 核的混合设计来说意义不大。事实上,线程通常首先调度到所有 P 核心,而不利用核心上的额外线程,然后额外的线程溢出到 E 核心。只有在 E 核心饱和后,才会开始在 P 核心上可用的额外线程上调度额外的线程。

通过消除 HT 所需的专用公平机制和冗余安全功能,核心现在更加精简,性能效率提高 15%,单位面积性能提高 10%,单位面积单位功率性能提高 10%,单位面积性能提高 30。 %。这比简单地禁用 HT 同时保留控制电路要有效得多。这种新方法还为其他添加剂释放了芯片区域,例如添加 E 核心或 GPU 核心。

然而,英特尔并没有在所有用例中消除 HT,并且仍然认为仅 P 核设计具有巨大价值。因此,英特尔设计了两种版本的Lion Cove核心,一种带HT,一种不带HT,允许带HT的Lion Cove核心用于其他应用,就像即将推出的Xeon 6处理器一样。

Lion Cove 还意味着放弃针对不同操作条件的预定义静态设置,例如为不同的热或功率阈值分配电压/频率曲线上的特定点。人工智能自调节控制器现在被用来以更智能的方式动态适应。时钟频率以前也只能以 100MHz 为单位(bin)进行调整,但现在可以以 16.67MHz 为单位进行调整,从而实现更细粒度的频率和功率控制。英特尔估计,在某些情况下,这可以将电源效率和性能提高一个数量级,并表示在效率优先的架构中,每一位都很重要。

微架构前端获取 x86 指令,将它们解码为微操作,并将它们提供给乱序执行引擎。目标是使引擎的无序部分饱和以防止失速,这需要快速而准确的分支预测。

据英特尔称,它在保持准确性的同时将预测块的数量扩大了八倍。英特尔还将指令缓存到 L2 的请求带宽增加了两倍,并将指令获取带宽从每秒 64 字节增加到每秒 128 字节。此外,解码带宽从每周期 6 条指令增加到 8 条指令,微操作缓存也随着读取带宽的增加而增加。微操作队列也从 144 个条目增加到 192 个条目。

以前的 P 核架构有一个调度器在执行端口之间调度指令,但这种设计引入了硬件开销和可扩展性问题。为了解决这些问题,英特尔将乱序引擎分为整数域和向量域,并使用独立的重命名器和调度器来提高灵活性。还有对退休、指令窗口、执行端口的各种改进以及对整数和向量执行管道的改进。

内存子系统中添加了新的 L0 缓存级别。架构师完全重新设计了数据缓存,在现有的 L1 和 L2 缓存之间添加了 192KB 的层。因此,现有的 L1 更名为 L0。最终,这减少了平均加载到使用时间,改进了 IPC,并允许增加 L2 缓存容量,而不会因容量增加而牺牲延迟。因此,L2 缓存在 Lunar Lake 中增加到 2.5MB,在 Arrow Lake 中增加到 3MB(两者都使用 Lion Cove 作为 P 核心)。

英特尔还从使用专有设计工具转向针对其使用进行优化的行业标准工具。英特尔以前的架构是用手绘电路组成的数万个单元的“Fub”(功能块)设计的,但现在它是用数十万到数百万个单元的大型合成分区设计的。消除人为边界可缩短设计时间、提高利用率并减少面积。

此外,通过在设计中添加配置旋钮,可以更快地剥离定制的 SoC 特定设计,从而使首席架构师能够进行更多的定制。这种设计方法还允许99%的设计迁移到其他工艺节点,这使得过去(比如10nm)很难看到英特尔的新架构因工艺节点的重大延迟而被推迟,这也是向前迈出的重要一步。防止未来的绊脚石。

与 Meteor Lake 中使用的上一代 Redwood Cove 架构相比,这些变化导致固定时钟速率下的 IPC 提高了 14%。英特尔还指出,整体性能比 Meteor Lake 提高了 10% 到 18%,具体取决于芯片的运行能力。值得注意的是,这些功耗和性能改进基于预测/估计,因此英特尔在“功耗性能”图表中给出了 +/-10% 的误差幅度。

高效能核心(E-core)Skymont的性能提升十分显着。

在Lunar Lake中,E核心“Skymont”可能比P核心还要重要。

P核“Lion Cove”14%的IPC提升令人印象深刻,但Skymont针对整数运算的38% IPC提升和针对浮点运算的68% IPC提升的性能提升更是令人震惊。与 Meteor Lake LP E 内核相比,单线程性能提高了 2 倍,多线程工作负载的峰值性能提高了 4 倍。英特尔还将矢量化 AVX 和 VNNI 工作负载的吞吐量提高了一倍。

Skymont 架构是继 Alder Lake 中的 Gracemont 和 Meteor Lake 中的 Crestmont 之后,英特尔针对 x86 混合处理器的第三个 E-Core 设计。 Meteor Lake 设计在 SoC 模块上放置了两个 E 核心,以实现极低功耗工作负载,并在计算模块上添加了四个 E 核心和 P 核心。借助 Lunar Lake,英特尔在计算块上采用单个四核集群来支持低功耗和高功耗 E 核角色,并提高动态范围。

英特尔通过向解码引擎提供 96 个指令字节的并行读取来优化分支预测引擎。解码集群也从 Crestmont 的 6 宽 (2x3) 扩展到 Skymont 的 9 宽 (3x3),新设计允许任何内核在每个时钟周期解码 9 条指令。 Skymont 还采用纳码来实现并行微码生成,从而提高了三个解码集群并行执行的频率。微操作容量也从 64 个条目增加到 96 个条目,以增加前端和后端之间的缓冲。

Skymont 的乱序引擎具有 8 宽分配,高于 Crestmont 的 6 宽。它还从 Crestmont 的 8 宽退役增加了一倍至 16 宽退役,通过在失速后尽快释放资源来提高功率和面积效率。乱序窗口比上一代大 60%,该架构具有更大的寄存器文件、更深的保留站以及更深的加载和存储缓冲。 8 个 ALU、26 个调度端口(包括 3 个跳转端口)以及对 3 个负载/周期的支持提高了并行性。

英特尔的目标是将矢量性能提高 2 倍,他们通过将 Skymont 中的两个 128 位 FP 和 SIMD 矢量管道增加到四个来实现这一目标。矢量引擎的其他改进包括减少延迟和增加对浮点舍入的支持。英特尔还通过幻灯片中提到的几项增强功能增强了加载/存储引擎。

之前的E-Core集群共享2MB L2缓存,现在已扩展到4MB,L2带宽增加了一倍。 L1 到 L1 的传输带宽也得到了改善。

最终结果令人印象深刻,如上所述,单线程整数性能提高了 38%,浮点性能提高了 68%,但这不是计算芯片上的标准四核集群,与 Meteor Lake 相比。 SoC的低功耗e核。

Skymont 的功耗和单线程性能曲线明显优于 Crestmont,但比较的对象还是低功耗 Meteor Lake E 核,而不是完整的 E 核。与 Crestmont 的峰值性能相比,Skymont 实现相同性能水平所需的功耗减少了三分之一。然而,在相同功率水平下,它的性能提高了1.7倍,并且消耗更多的电量。总体而言,Skymont 的单线程峰值性能是 Crestmont LP E 核的两倍。

多线程功耗/性能指标有点令人费解,因为英特尔将 Skymont 的四核集群与四核集群进行比较,而不是与 Meteor Lake 的双核低功耗 E-core 集群进行比较。因此,与标准 Meteor Lake 四核集群相比,我们预计在这些领域会看到一半的优势。

英特尔还在比较 Skymont 和 Raptor Lake P 核,后者使用 Raptor Cove 架构。 Intel 声称在整数和浮点运算方面比 Skymont 领先 2%。

英特尔比较 Skymont 和 Raptor Cove 的功耗和性能幻灯片具有误导性。在最后两张幻灯片中,您可以看到英特尔正在扩大功率/性能曲线的面积,它表示这是低功耗岛中多线程加速的适当功率包络。最后一张幻灯片指出,在相同性能下,Skymont 的功耗是 Raptor Cove 的 0.6 倍,在相同功率下提供的性能是 Raptor Cove 的 1.2 倍。

“NPU 4”拥有48TOPS

英特尔在其最新的 NPU(称为“NPU 4”)上取得了一些重大突破。 AMD 在 Computex 主题演讲中推出了更快的 50TOPS NPU,而英特尔则声称峰值 AI 性能高达 48TOPS。与前身 NPU 3 相比,NPU 4 在增强神经处理能力和效率方面实现了巨大飞跃。 NPU 4 的改进得益于更高的频率、更好的电源架构和更多的引擎,从而带来更好的性能和效率。

在 NPU4 中,这些改进通过矢量性能架构得到增强,该架构增加了计算块的数量并提高了矩阵计算的最优性。这会产生大量的神经处理带宽。换句话说,它对于需要超快速数据处理和实时推理的应用程序至关重要。该架构支持 INT8 和 FP16 精度,INT8 的每个周期最多可进行 2048 次 MAC 运算,FP16 的每个周期最多可进行 1024 次 MAC 运算,这清楚地表明了计算效率的显着提高。

更仔细地观察架构,我们发现 NPU 4 的层次更加丰富。每个神经计算引擎的第四个版本都包括一个高度复杂的推理管道,该管道由一个 MAC 阵列和多个用于不同类型操作的专用 DSP 组成。管道是为大量并行操作而构建的,可提高性能和效率。新型SHAVE DSP经过优化,矢量计算能力是上一代的四倍,可以处理更复杂的神经网络。

NPU 4 的主要改进包括提高时钟速度以及引入新节点,从而在与 NPU 3 相同的功率水平下将性能提高一倍。这使得峰值性能提高了 4 倍,使 NPU 4 成为满足要求苛刻的 AI 应用程序的强大处理器。新的MAC阵列具有先进的片上数据转换功能,允许即时数据类型转换、融合操作和输出数据布局,以最小的延迟优化数据流。

NPU 4 增加的带宽对于处理更大的模型和数据集至关重要,尤其是基于转换语言模型的应用程序。该架构支持更高的数据流,减少瓶颈,并在生产过程中平稳运行。 NPU 4 的 DMA(直接内存访问)引擎使 DMA 带宽加倍。这是提高网络性能和有效处理重型神经网络模型的重要功能。支持更多功能,包括内置标记化,扩展了 NPU 4 的可能性。

NPU4的主要改进在于矩阵乘法和卷积运算,这使得MAC阵列能够在单个周期内处理INT8上最多2048个MAC运算和FP16上最多1024个MAC运算。这使得 NPU 能够高速且低功耗地处理更复杂的神经网络计算。 NPU4 的宽度为 512 位。这意味着在一个时钟周期内可以执行更多的向量运算,从而提高计算效率。

NPU 4 现在将支持激活函数并选择精度来支持浮点运算,这应该会使计算更加准确和可靠。改进的激活函数和优化的推理管道将使我们能够以更高的速度和准确性运行更复杂和细致的神经网络模型。

与 NPU 3 相比,升级到 NPU 4 中的 SHAVE DSP 可提供 4 倍的矢量计算能力,从而将整体矢量性能提高 12 倍。这对于处理 Transformer 和大规模语言模型 (LLM) 最有用,因为速度更快、更节能。每个时钟周期向量运算的增加允许更大的向量寄存器文件大小,从而显着提高 NPU 4 的计算能力。

总体而言,NPU 4 比 NPU 3 提供了显着的性能改进,具有 12 倍的矢量性能、4 倍的 TOPS 和 2 倍的 IP 带宽。这些改进使 NPU 4 高性能、高效地适合性能和延迟至关重要的现代人工智能和机器学习应用。这些架构改进以及数据转换和带宽方面的改进使 NPU 4 成为管理最苛刻的 AI 工作负载的顶级解决方案。

第二代集成GPU“Xe2 GPU”

全新 Xe2 iGPU 的图形性能比 Meteor Lake 的 Arc Graphics 提升高达 1.5 倍,AI 性能高达 67TOPS。 GPU 架构的名称现已简化,所有配置现在简称为 Xe2,与上一代 Xe 架构中使用的 Xe-LP、Xe-HP 和 Xe-HPG 后缀不同。

英特尔的全新 Xe2 架构不仅将为 Lunar Lake 处理器提供动力,还为即将推出的 Battlemage 独立游戏 GPU 提供动力。然而,尽管架构相同,Lunar Lake 使用较低功率的晶体管,而 Battlemage 使用更快的晶体管来最大限度地提高性能。也就是说,Lunar Lake的性能预测不能直接应用于Battlemage GPU性能预测。

与Meteor Lake的Xe-LPG相比,Intel推出的Xe2架构通过提供多达67个TOP和增加光线追踪单元,显着提高了计算能力。据英特尔称,第二代 Xe 核心的图形性能比 Meteor Lake 快 1.5 倍,这是在新的 XMX 引擎的帮助下实现的。增强的 XeSS 内核提供了改进的图形性能和计算性能。

Lunar Lake Xe2的一大变化是它提供了更灵活、更高质量的显示输出。在显示引擎内,来自双像素管道的流可以组合起来以执行多流传输。该架构提供四个端口以实现灵活的连接。英特尔的配置还提供 eDP 端口来增强显示效果,从而为高端、优质和高性能显示器上的输出设置更高的分辨率和刷新率。

eDisplayPort 1.5 还包括与自适应同步和选择性更新机制集成的面板播放功能。这有助于通过仅更新屏幕的变化部分而不是整个显示器来降低功耗。这些创新不仅节省能源,还通过减少显示延迟和提高同步精度来改善视觉体验。

像素处理管道划分是英特尔显示引擎的基本基础之一,允许每个管道有六个平面以进行高级颜色转换和合成。此外,它还集成了对色彩增强、显示缩放、像素调整和 HDR 感知量化的硬件支持,以确保屏幕上的图形生动且准确。该设计高度灵活、节能,并且兼容多种输入和输出格式。到目前为止,英特尔尚未提供任何可量化的功率指标​、TDP 或其他功率因数。

考虑到压缩和编码,Architecture Xe2 在视觉上无损地将显示流压缩扩展至 3:1,包括 HDMI 和 DisplayPort 协议的传输编码。这些芯片功能进一步减少了数据负载并保持高输出分辨率,而不会损失视觉质量。

此外,在 Lunar Lake 中,英特尔采用了 VVC 编解码器。该编解码器支持自适应分辨率流媒体和 360 度全景视频的高级内容编码,与 AV1 相比,文件大小最多可减少 10%。这允许以较低的比特率进行流传输而不牺牲质量,这对于现代多媒体应用程序至关重要。

英特尔Xe2和第二代Arc Xe核心将显着提高性能、效率和灵活性。

I/O:Thunderbolt 4、Thunderbolt Share、Wi-Fi 7 包括

Lunar Lake 的主要 I/O 亮点包括原生 Thunderbolt 4 连接、新的 Thunderbolt Share 功能以及升级至 Wi-Fi 7 无线连接。

从控制器的角度来看,Thunderbolt 4 并不新鲜,但它确实提供了增强的连接性和带宽。现在每台笔记本电脑都具有三个 Thunderbolt 端口,此功能变得极其灵活且易于使用。

Thunderbolt 5 SSD 的另一项改进是读写速度提高了 25%。这提高了整体数据传输速度并减少了传输文件所需的时间。这对于需要高数据传输速度的应用程序(例如视频编辑或处理相当大的文件)非常重要,因此用户在工作时遇到的延迟或最小速度延迟将会消失。

Thunderbolt Share允许多台 PC 以高达每秒 60 帧的速度在系统之间轻松快速地共享屏幕、显示器、键盘、鼠标和存储。

特别是在协作环境中,可以轻松快速地完成数据共享,这对改善工作流程非常重要。对于生产力任务,该实用程序允许文件夹同步,并具有通过 PC 之间的拖放进行快速文件共享的功能。

Wi-Fi 7也集成到了Lunar Lake平台中,而Meteor Lake在无线连接方面被省略了。 Wi-Fi 7 中的多链路操作功能提高了无线信号的完整性和可靠性,并通过在所有上述链路上复制数据包来提高吞吐量,同时减少延迟。这意味着更流畅的性能和更好的负载平衡,即使对于要求苛刻的应用程序也是如此。 Wi-Fi 7新功能的最大好处将在处理带宽密集型任务时为用户带来。它旨在帮助用户拥有稳定有效的无线连接。

它还包括射频干扰缓解技术,可自动调整 DDR 时钟频率,以最大程度地减少对 Wi-Fi 信号的干扰。该功能理论上可以通过将内存噪声导致的吞吐量下降降低 50% 来提高整体无线网络性能。用户可以期待的另一个积极效果是强大的连接性,即使在最苛刻的环境中也是如此。

英特尔鼓励与 Meta 合作,利用 Wi-Fi 7 技术来增强 VR 体验。这进一步优化了视频延迟性能并减少了干扰,使 VR 应用程序更加无缝且更具吸引力,至少从无线连接的角度来看是这样。 Wi-Fi 7 的新增强功能可提供可靠的高速度和低延迟,以满足 VR 应用中最具挑战性的需求。

Lunar Lake 的 Thunderbolt 4、Thunderbolt Share 和 Wi-Fi 7 是 Meteor Lake 的全面升级。这些技术带来了全面的增强,包括提高有线和无线连接的速度和可靠性,以及大规模数据交换,旨在扩展和改善最终用户体验。

0 阅读:0

碳材谈科技

简介:感谢大家的关注