边缘AI行业报告:边缘AI硬件,引领硬件创新时代

报告研读小助理 2024-04-19 08:35:20

报告出品方:山西证券

以下为报告原文节选

-----

1. 边缘 AI:AI 普及的硬件基础

1.1 边缘 AI 是什么

边缘 AI,也称为边缘人工智能,指在物理世界设备中部署 AI 应用。这项技术之所以被称为“边缘 AI”,是一种在物理设备上本地处理的 AI 算法。具体来说,边缘 AI 的计算发生在靠近用户和数据的网络边缘,而不是集中在云计算设施或私人数据中心。这种技术在全球范围内的网络边缘都可以应用,例如零售店、工厂、医院,甚至我们身边的交通信号灯、自动化机器和电话等设备都可以做为边缘 AI 的终端。

边缘 AI 本质是将边缘计算与 AI 进行一种结合,在分布式的物理架构下去进行 AI 计算,相对于传统的云 AI,边缘 AI 在算力的性价比和效率上有明显优化,因此也扩大了 AI 计算的适用范围。传统 AI 的使用场景有一定局限性,难以面对实际应用场景的多样化,云 AI 大模型对特定场景的适配性较差,易出现算力的不足或者冗余,算力使用的性价比偏低。同时云计算在边缘端对于数据的传输通信有较高要求,网络安全及传输速率的劣势使得计算效率略显不足。

而边缘 AI 针对不同应用场景,在芯片、模型、感知等层面进行专有设计,使得数据在终端进行采集、计算,不仅提升了 AI 运算效率,同时降低了对云算力的消耗,而人工智能技术作为一种高性能计算,应用于边缘端,也极大扩展了 AI 技术的使用场景。

1.2 边缘 AI 的相对优势

边缘 AI 相对传统云 AI 的四大优势,分别为算力节省、低延时、隐私定制、交互简洁,是边缘 AI 扩大自身应用场景的核心优势。算力成本是 AI 运算的主要成本,传统云端模型参数在千亿以上,单次计算调用的算力和存力成本巨大,而边缘 AI 模型针对具体应用对模型进行优化,降低了参数和训练数据的规模,另外直接将运算在边缘端进行,减少了数据在云端和边缘端的传输,同样也是对成本的节约。其次边缘 AI 的优势还体现在低延时和离线状态的使用,传统云端模型需要将数据传输至数据中心,网络的稳定性,以及传输过程中的延时,将明显降低 AI 应用使用的可靠性和及时性,而边缘 AI 则可以在无连接状态使用模型,规避了传统云端模型的劣势。另外边缘终端直接计算,可以避免数据上传云端造成的信息泄露等问题,更有利于信息安全,同时由于本地信息的个性化,边缘模型能够根据用户的个性化需求,针对用户的爱好、性格给出更有价值的输出结果,提供差异化的 AI 服务。

边缘 AI 与传统 AI 互有优势,实际应用过程中,根据使用场景的差异,边缘 AI 的模型架构又可分为终端为中心的混合 AI、基于终端感知的混合 AI、终端与云端协同处理混合 AI。

之所以要对 AI 计算进行分工,是由于在不同的场景下,根据云端和边缘端的计算、存储能力,需要将 AI 计算和存储分配到云和终端共同完成,使得整体 AI 计算效率最大化。

终端为中心的混合 AI,即是将所有的计算过程均在边缘端进行。当边缘终端的计算性能较高,且运行的模型复杂度不高的时候,直接将模型搭载在终端上,依靠终端进行数据处理和存储,一般适用于计算能力较强的终端,例如 PC 等。这种模型的优势是更快速的响应用户请求,且降低对云端的计算负载,同时在离线状态下也能实现模型运行,是一种完全不依赖云端数据中心的边缘模式。

终端感知的混合 AI,终端负责的数据采集和存储,然后将数据传输到云端进行 AI 计算,最终通过终端进行数据输出。这是一种结合终端数据处理能力,与云端计算能力的边缘 AI 模式,一般适用于数据输入输出能力强,但计算能力有限的终端,例如手机、智能音箱等。利用边缘终端对数据进行预处理标准化,对于用户来说,既能保证数据输入的有效性,也保障了传输数据的隐私性,而对于云端数据中心,则有效降低了数据负载。

终端与云端协同处理混合 AI,这是一种结合终端数据处理能力与云端计算能力的边缘 AI运行模式。在这种模式下,模型自主判断 AI 计算在云端和边缘端的分配,当计算需求较为简单时,则在终端进行简易模型的计算,而当终端计算结果准确性下降后,则再通过云端的大模型进行修正。协同处理的模式对使用场景有更强的适应力,适配不同的 AI 使用需求,其难点在于对算力的分配算法,如何判定在云端或终端进行计算。潜在方案是先在终端进行初步计算,然后将计算结果发送到云端进行验证,由验证的正确率来判断是否要在云端进行重新计算,从而实现云端算力的动态调整。

1.3 边缘 AI 的应用场景

边缘 AI 模型的研发加速边缘 AI 的应用场景扩展,当前已有众多边缘模型发布,其模型参数在 10 亿至 100 亿之间。受边缘终端的计算性能限制,边缘端搭载的 AI 模型较传统模型更加轻量级,其参数范围取决于模型的预期功能和搭载的终端。根据高通预测,未来在边缘端搭载的模型参数范围在 10-100 亿之间,且 100-150 亿参数级别的模型可以覆盖大部分的边缘 AI应用。

边缘 AI 推广的基础是边缘模型的推出,高通在手机上演示使用 Stable Diffusion 来生成图像,标志着 AI 大模型首次在安卓手机终端上得到应用。Stable Diffusion 过去依靠云端运行,参数超过 10 亿,高通通过全栈 AI 优化,使用降低浮点数、减少存储溢出、升级算力性能等方式,使得模型可以在骁龙 8 Gen 2 平台上运行。

边缘 AI 由于其算力节省性、低延时、隐私定制、交互等优势,在各行各业都有广阔应用前景,例如消费电子、PC 办公、智能汽车等领域。根据英特尔高级副总裁 Sachin Katti 预测,2023 年全球边缘市场规模将达到 4450 亿美元,边缘 AI 的广泛应用将会各行业带来巨大的发展机会。

智能手机及智能家居等消费电子类产品,使用边缘 AI 主要集中在视觉识别及语音感知功能上。视觉识别领域,通过边缘 AI 算法,实现对人以及物体的识别从从 2D 到 3D,适用范围大范围扩展,例如在智能家居领域,生物识别可实现人脸支付、门禁识别等复杂功能,物体识别可实现 3D 空间扫描等功能。语音感知功能在消费电子领域同样大规模使用,例如手机、智能音箱的语音交互,智能家居的语音遥控等功能。

笔记本电脑作为移动生产终端,边缘 AI 将显著提升 PC 作为生产工具的效率。微软 Office的 AI 功能体现在 AI 助理“Copilot”,其功能可帮助用户草拟文档、根据内容生成 PPT、数据表格生成和分析、会议内容转录等,目前已经广泛前装在各类新款 PC 终端上,微软也在官网上宣布 Windows 11 PC 将推出 Copilot 按键,以增强用户的 AI 使用体验。国内 WPS 同样推出WPS AI,整合先进的自然语言处理技术和机器学习算法,可实现文字识别、语音识别、智能翻译、数据分析和图表生成等复杂功能,有效提高了用户的工作效率和准确性。

边缘 AI 在汽车领域主要应用于智能座舱和自动驾驶领域,对于座舱智能化以及自动驾驶提供强有力技术支持。智能座舱领域高通在 CES2024 上展示了多种边缘 AI 应用场景,推出面向主动车载辅助的 AI,基于骁龙数字底盘解决方案,可实现汽车端 LLM 模型的实现,帮助用户了解天气、时段、行程信息等多种类信息。自动驾驶领域英伟达边缘 AI 扮演重要角色,通过边缘设备进行数据处理和分析,实现边缘 AI 的快速高效决策,英伟达最新 DRIVE AGX 平台,包含了开发自动驾驶功能和智能座舱的全部硬件和软件,可实现 L2+到 L5 级的全自动驾驶汽车系统。

2. 边缘 AI:AI 普及的硬件基础

2.1 AI PC 芯片:主流大厂路线推出新品,相对传统 PC 大幅提升算力

终端处理器芯片厂商主要在手机芯片以及 PC 芯片两个市场竞争。大部分 AI 手机芯片产品发布会主要集中在 2023 年下半年,并且已经投入应用。而在 12 月份,AMD 8040 系列以及Intel Ultra 系列处理器也正式将笔记本电脑处理器芯片竞争拉升至 AI PC 时代,相较于普通的PC 芯片,提升芯片运行 AI 大模型的能力,在功耗及计算速度上有明显优化,这也标志着 AI PC芯片的技术迭代即将进入新一轮创新周期。

AI PC 芯片密集发布,相对传统 PC 芯片在 GPU 和内存参数上有明显提升。以英特尔相近的两款 AI PC 芯片为比较,AI PC 芯片 Intel Core Ultra 9 185H 配置了相关专用于 AI 性能提升的硬件 Intel AI engine,因此在 32 位浮点运算以及 AI 算力上有了巨大的提升,在数据处理速度相关的频率以及内存最大带宽均优于 Intel Core i9-13900。AMD 同一代产品中,具备 Ryzen AI 引擎的 7940HS 与普通 CPU 有明显差异。AI 处理器在 GPU 上更加领先,内存带宽优于普通 CPU,GPU 的频率有明显升级,而在最大内存带宽上也有明显提升。

主流厂商 AI PC 芯片均增加了 NPU 模块,相对于传统 PC 芯片极大提升了算力,而英特尔凭借当前的开发生态和硬件性能优势,占据主要市场份额。各家在新款 AI PC 芯片上,均增加了 AI 硬件,其自身的算力叠加传统 PC 芯片中 CPU 及 GPU 的算力,使整体算力有了较大提升。而在竞争格局上,市场上主要的竞争集中在英特尔、AMD、高通等厂商,横向对比各家优劣,AMD 在内存方面对其余两家有明显优势,高通 GPU 频率相对更高,且其独有的高通引擎使得在 AI 算力上数值更高。而英特尔则更加均衡,硬件方面配置更多核心,处理线程更多,同时软件开发生态更为丰富,下游终端厂商接受度也更高,综合实力英特尔暂时领先。另外从当前下游 PC 新品发布来看,搭载英特尔芯片的产品也更加丰富。

2.1.1 高通:基于 ARM 架构的新一代 PC 芯片,算力领先同行

高通的最新 PC 处理器骁龙 X Elite 在算力性能上显著提升。2023 年 10 月 26 日高通发布了其用于 AI PC 方向的最新处理器骁龙 X Elite, 使用 12 核高通 Oryon CPU 与 Adreno GPU,GPU 32 位浮点运算能力达到了 4.6TFlOPS, 骁龙 X Elite 能够在设备上运行超过 13B 参数的生成式 AI LLM 模型。此外还搭载了高通 Hexagon NPU,其基础算力达到 45TOPS,搭配高通 AI引擎算力最高可达 75TOPS, 使用 LPDDR5x 内存,136 GB/s 带宽,以及适配的终端 AI,输出速度 30Tokens/s。同时,芯片有着低能耗的优点,一次充电可维持几天工作时间。

2.1.2 苹果:M 系列芯片算力大幅提升

苹果 M 系列处理器一直以其独有的统一内存架构占据市场,采用统一的内存架构可提供高带宽、低延迟和出色的功耗表现。M3 系列芯片,配置 128G 显存,可以运行数十亿参数的更大的 Transformer 模型。在算力的性能上,M3 MAX 的 GPU 提供 14.2TFlOPS 的 32 位浮点算力,搭载 Apple Neural Engine,使 NPU 算力达到 35TOPS,相较上一代有较大幅度提升。

M3 MAX 芯片中的晶体管数量达 920 亿个,搭配 16 核 CPU 核心,40 核 GPU 核心,相较于M1 Max,CPU 性能提速 80%,GPU 性能提速 50%。

2.1.3 英特尔:PC 芯片龙头,AI PC 时代引领行业发展

英特尔最新 AI 产品 Meteor Lake 是 AI PC 处理器最新的上市产品,在 AI 性能方面与前代有巨大提升。采用英特尔 Arc GPU, 显存达 32GB,可平稳运行本地 LLAMA 2-7b 模型,相对i7 1370P 处理器在 AI 软件运行上有 1.1 倍性能提升,1.7 倍生成式 AI 性能提升。在整体算力性能上达到 34TOPS,同时芯片搭载的 NPU 可进行 FP16 精度编码,这是相对市场竞品的领先所在。

预计在 2024 年底,英特尔将推出新一代 Arrow Lake 芯片,Arrow Lake-S CPU 采用全新的微架构,其中性能核心称为 Lion Cove,效率核心称为 Skymont,这些新系列还将采用 Intel 20A工艺节点,并采用基于 Alchemist 的 Xe-LPG 架构。与 Alder/Raptor Lake CPU 中使用的 Xe-LP架构相比,GPU 的速度预计至少会提高两倍。

2.1.4 AMD:AI 芯片不断迭代,算力能力持续提升

AMD 最新产品锐龙 9 8945HS 的主要硬件性能提升是在基于 7840 型号在 AI 算力上进行的提升。从原先 NPU 提供的 10TOPS 提高至 16TOPS,从而使整体算力性能提高 6TOPS。锐龙 7040 系列处理器内置 AMD Ryzen AI 引擎,专用于神经网络 AI 运算处理单元,最高可实现每秒十万亿次的 AI 运算,是在 X86 架构处理器内首次实现集成 CPU+GPU+AI 引擎三种计算单元的创新设计方案。

AMD 在 2023 年 11 月 5 日的 Microsoft Ignite 全球技术大会上,展示即将到来的 AMD Instinct 加速器、AMD EPYC(霄龙) CPU 和内置 AI 引擎的 AMD Ryzen CPU 在内的众多AMD 产品。AMD 锐龙 7040 系列移动处理器,内置 AMD Ryzen AI 引擎,专用于神经网络 AI运算处理单元,最高可实现每秒十万亿次的 AI 运算,是在 X86 架构处理器内首次实现集成CPU+GPU+AI引擎三种计算单元的创新设计方案。AMD Ryzen AI引擎配合强大的CPU和GPU协同计算,为笔记本电脑赋能,可以在极低的功耗下完成 AI 应用计算。

AMD 在 12 月发布全新的锐龙 8000 系列移动处理器。AMD 发布 Ryzen 8040 系列 APU,传统性能没有改进,大幅提升 AI 性能,但总体算力横向对比依然没有太大优势。AMD 表示 2024年将发布鹰点下一代的 APU,代号为“Strix Point”,目前尚无权威中文译名。

2.2 主流 AI 手机芯片厂商

手机 SoC 的 AI 趋势下半年开始逐渐体现,以高通骁龙 8Gen 3、联发科天玑 9300 为代表的新款旗舰大幅提升算力。在架构上,天玑 9300 采用全大核架构,将大核性能运用极致,运用大核运算速率优势降低整体功耗,官方数据表示峰值性能相较上一代提升 40%,功耗节省33%,而 8Gen 3 采用“1+5+2”架构,增加大核数量提升算力。AI 性能方面天玑 9300 搭载的vivo X100 可运行 100 亿参数大模型,算力达到 33TOPS,高通及苹果旗舰芯片也能达到30+TOPS 算力。

除高通、联发科外,其他手机芯片厂商也在提升手机算力性能。

苹果 A17 PRO 是应用于 iphone 15 的苹果最新型号芯片,GPU 性能出众。搭载 6 核 A17PRO GPU,运行频率达 1389MHz,提供 2.2TFlOPS32 位浮点算力。使用神经网络引擎供应35TOPS 算力达到 AI 手机芯片领先水平,芯片工艺为 3nm 则属于市场最先进制程。

谷歌在 AI 手机芯片市场上主要表现的是参与者的态度,相较于其他厂商芯片的高性能,Google Tensor G3 芯片在性能上相对于 Google Tensor G2 有较大提升。Pixel 8 Pro 手机应用Google Tensor 3 芯片后可运行的机器学习模型数量是前代其两倍多,随着生成式 AI 的发展以及与 Google DeepMind 的合作,一些新的功能将被引入 Pixel。新的生成式 AI 比一年前 Pixel7 模型复杂 150 倍以上。

.2.1 高通:手机领域芯片龙头,新款旗舰芯片算力提升明显

23年新款旗舰芯片骁龙 8 Gen 3搭载的高通AI引擎是第一个支持多模式生成人工智能模型引擎。包括流行的大型语言模型(LLM),语言视觉模型(LVM),和基于变压器网络的自动语音识别(ASR),达 10B 参数;即时 LLM 模型可以运行 20tokens/秒,属于智能手机行业顶尖。采用 Qualcomm Adreno 750GPU 搭配 24GB 内存,32 为浮点算力 2.4TFlOPS,整体算力34TOPS。

骁龙 8 Gen 3 有世界上第一个集成了人工智能张量硬件加速器的 5G 调制解调器,在硬件层面上,人工智能处理能力为其前身的 2.5 倍,配属升级后 Kryo CPU 提升了 30%性能和 20%功率效率,以及 25%的 GPU 性能提升和 10%能耗减少。

2.2.2 联发科:旗舰芯片全大核设计,AI 模型搭载能力大幅提升

联发科新品天玑 9300 是率先采用全大核 CPU 架构的旗舰移动芯片,配有第 7 代 APU 架构内建硬件级的生成式 AI 引擎。芯片搭载四个 Cortex-X4 超大核和四个 Cortex-A720 大核,单核性能提升超过 15%,多核性能提升超过 40%。能够实现更快速且安全的边缘 AI 计算。

MediaTek 完整的工具链,能够协助开发者在端侧快速且高效地部署多模态生成式 AI 应用,为用户提供包括文字、图像、音乐等在内的终端侧生成式 AI 创新体验。相较于前代生成式AI transformer 运算速度快 8 倍 2 倍整数和浮点运算速度,功耗较前一代降低 45%,最高可支持 330 亿参数大语言模型。

2.3 AI 大模型端侧落地推动终端存储容量提升

大模型离线应用与强大算力拉动 PC 端的存储需求。大模型的离线应用对内存空间提出更高的要求,同时 AI 模型强大的算力与海量的训练参数也需要更高的总线带宽,这些都对 PC终端的存储能力提出更高要求。

运行大模型的速度,对芯片算力以及显存带宽提出了更高的要求。大模型处理的任务规模越大则总计算量越大,在任务时间有限情况下,计算时间同时受到算力和显存带宽两方面的制约。由于计算速度=min{计算强度*带宽,算力},则计算密度越大,模型所能达到的速度上界越高,此时受到显存带宽制约。如果计算密度较大,则模型性能受硬件最大计算峰值(即算力)限制。

近年来各品牌 AI PC 产品陆续上市,AI 功能落地拉动存储需求上升。AI 发展的一个趋势是端侧 AI,PC 端相比手机端算力更强,能契合更多大模型需求场景,将最先搭载端侧大模型。

大模型强大的算力与海量的模型参数需要优化的数据路径和存储解决方案,近年来各品牌 AI PC 产品陆续上市,与普通 PC 相比,其存储参数 RAM、ROM 均有显著提高。随着未来 AI 功能广泛地在 PC 端落地,海量的算力需求将拉动存储需求上升。除了内存的提升外,闪存的升级也尤为明显,由于 AI 模型自身占用空间较大,同时与模型配套的训练数据同样占用一定空间,因此部署边缘大模型所需要闪存的空间也较大,AI PC 的进程加速了闪存容量升级的过程。

3. 边缘 AI 硬件产业链生态与展望

3.1 AI PC 或为 PC 产业提供重要发展动力

PC 市场较为成熟,增速较为稳定。PC 自 90 年代快速推广以来,已经发展为成熟市场,从美国 PC 市场的发展历程中可以看出,近 20 年来 PC 市场增速波动逐步降低,增速周期性特征减弱。增速放缓的主要原因是由于随着 PC 渗透率提升,市场整体趋于稳定。当前行业波动主要受宏观经济、PC 产品迭代、线上办公等因素影响,结合历史规律,PC 行业周期一般约为5 年左右。

--- 报告摘录结束 更多内容请阅读报告原文 ---

报告合集专题一览 X 由【报告派】定期整理更新

(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)

精选报告来源:报告派

科技 / 电子 / 半导体 /

人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |

0 阅读:21