什么是边缘AI推理,为什么它对企业很重要?

米言看科技 2024-07-24 07:02:34
与传统的云 AI 推理相比,边缘 AI 推理是指在更接近最终用户的地方运行经过训练的机器学习 (ML) 模型。边缘推理可加快 ML 模型的响应时间,从而在游戏、医疗保健和零售等行业实现实时 AI 应用。 什么是边缘 AI 推理? 在我们专门研究边缘的 AI 推理之前,有必要了解一下 AI 推理的一般含义。在 AI/ML 开发生命周期中,推理是指经过训练的 ML 模型对以前看不见的新数据执行任务,例如进行预测或生成内容。当最终用户直接与嵌入在应用程序中的 ML 模型交互时,就会发生 AI 推理。例如,当用户向 ChatGPT 输入提示并得到响应时,ChatGPT “思考”的时间就是推理发生的时间,输出是该推理的结果。 边缘 AI 推理是 AI 推理的一个子集,其中 ML 模型在靠近最终用户的服务器上运行;例如,在同一地区甚至同一城市。这种接近性将延迟减少到毫秒级,从而加快模型响应速度,这有利于图像识别、欺诈检测或游戏地图生成等实时应用。 边缘 AI 推理与边缘 AI 的关系 边缘 AI 推理是边缘 AI 的一个子集。边缘 AI 涉及处理数据并在更靠近数据源而不是在云中运行 ML 模型。边缘 AI 包括与边缘 AI 计算相关的一切,从边缘服务器(城域边缘)到物联网设备和电信基站(远端)。边缘 AI 还包括边缘训练,而不仅仅是推理。在本文中,我们将重点介绍边缘服务器上的 AI 推理。 边缘推理与云推理的比较 通过云 AI 推理,您可以在远程云服务器上运行 ML 模型,并在云中发送和处理用户数据。在这种情况下,最终用户可能会与来自不同地区、国家甚至大陆的模型进行交互。因此,云推理延迟的范围从数百毫秒到几秒不等。这种类型的 AI 推理适用于不需要本地数据处理或低延迟的应用程序,例如 ChatGPT、DALL-E 和其他流行的 GenAI 工具。边缘推理在两个相关方面有所不同: 推理发生在离最终用户更近的地方 边缘 AI 推理的工作原理:边缘的 AI 推理依赖于具有两个主要架构组件的 IT 基础设施:低延迟网络和由 AI 芯片驱动的服务器。如果您需要能够处理负载峰值的可扩展 AI 推理,您还需要容器编排服务,例如 Kubernetes;这在边缘服务器上运行,使 ML 模型能够快速自动地纵向扩展和缩减。如今,只有少数提供商拥有在边缘提供满足这些要求的全球 AI 推理的基础设施。 低延迟网络:在边缘提供 AI 推理的提供商应具有服务器所在的边缘接入点 (PoP) 分布式网络。边缘 PoP 越多,网络往返时间就越快,这意味着最终用户的 ML 模型响应速度更快。提供商应该在全球拥有数十个甚至数百个 PoP,并应提供智能路由,将用户请求路由到最近的边缘服务器,以高效和有效地使用全球分布式网络。 具有 AI 加速器的服务器:为了减少计算时间,您需要在由 AI 加速器(如 NVIDIA GPU)提供支持的服务器或虚拟机上运行 ML 模型。有专为 AI 推理而设计的 GPU。例如,最新型号之一 NVIDIA L40S 的推理性能比 A5 和 H100 GPU 快 100 倍,后者主要用于训练大型 ML 模型,但也用于推理。NVIDIA L40S GPU 是目前执行 AI 推理的最佳 AI 加速器。 容器编排:在容器中部署 ML 模型使模型具有可伸缩性和可移植性。提供商可以代表您管理基础容器业务流程工具。在该设置中,希望将模型集成到应用程序中的 ML 工程师只需上传带有 ML 模型的容器映像,即可获得现成的 ML 模型终结点。当负载峰值发生时,具有 ML 模型的容器将自动纵向扩展,然后在负载消退时缩减。 边缘 AI 推理的主要优势 边缘 AI 推理为各行各业或用例提供了三个关键优势:低延迟、安全性和主权以及成本效益。 低延迟:网络延迟越低,模型的响应速度就越快。如果提供商的平均网络延迟低于 50 毫秒,则适用于大多数需要近乎即时响应的应用。相比之下,云延迟可能高达几百毫秒,具体取决于您相对于云服务器的位置。对于最终用户来说,这是一个明显的差异,云延迟可能会导致挫败感,因为最终用户需要等待他们的 AI 响应。请记住,低延迟网络仅考虑数据的传输时间。50 毫秒的网络延迟并不意味着用户会在 50 毫秒内获得 AI 输出;您需要添加 ML 模型执行推理所需的时间。ML 模型的处理时间取决于所使用的模型,并且可能占最终用户的大部分处理时间。因此,我们更需要确保使用低延迟网络,以便在 ML 模型开发人员继续提高模型推理速度的同时,您的用户可以获得最佳响应时间。 安全与主权:将数据保留在边缘(即用户本地)可以简化对当地法律法规的遵守,例如 GDPR 及其其他国家/地区的等效法规。边缘推理提供商应设置其推理基础设施以遵守当地法律,以确保您和您的用户得到适当的保护。 边缘推理还提高了最终用户数据的机密性和隐私性,因为它是在本地处理的,而不是发送到远程云服务器。这减少了攻击面,并将传输过程中数据泄露的风险降至最低。 成本效益:通常,提供商仅对 ML 模型使用的计算资源收费。这与精心配置的自动缩放和模型执行计划一起,可以显著降低推理成本。谁应该在边缘使用 AI 推理? 以下是一些常见场景,其中边缘推理是最佳选择:低延迟对应用程序和用户至关重要。从面部识别到交易分析,各种实时应用都需要低延迟。边缘推理提供最低延迟的推理选项。您的用户群分布在多个地理位置。在这种情况下,您需要为所有用户提供相同的用户体验(即相同的低延迟),无论他们身在何处。这需要一个全球分布式的边缘网络。您不想处理基础结构维护。如果支持云和 AI 基础架构不是您核心业务的一部分,那么将这些流程委托给经验丰富的专家合作伙伴可能是值得的。然后,您可以将资源集中在开发应用程序上。您希望将数据保留在本地,例如,在生成数据的国家/地区内。在这种情况下,您需要在尽可能靠近最终用户的地方执行 AI 推理。全球分布式边缘网络可以满足这一需求,而云不太可能提供所需的分布范围。 哪些行业受益于边缘的 AI 推理?边缘 AI 推理使任何使用 AI/ML 的行业受益,尤其是那些开发实时应用程序的行业。在技术领域,这将包括生成式人工智能应用程序、聊天机器人和虚拟助手、数据增强和软件工程师的人工智能工具。在游戏中,它将是 AI 内容和地图生成、实时玩家分析以及实时 AI 机器人定制和对话。对于零售市场,典型的应用是智能杂货店,具有自助结账和销售、虚拟试妆以及内容生成、预测和推荐功能。在制造业中,其优势在于生产流程中的实时缺陷检测、VR/VX 应用程序和快速响应反馈,而在媒体和娱乐行业,则包括内容分析、实时翻译和自动转录。开发实时应用的另一个领域是汽车,特别是自动驾驶汽车的快速响应、车辆个性化、高级驾驶辅助和实时交通更新。 结论 对于希望部署实时应用程序的组织来说,边缘的 AI 推理是其基础设施的重要组成部分。它显著降低了延迟,确保了超快的响应时间。对于最终用户来说,这意味着无缝、更具吸引力的体验,无论是玩在线游戏、使用聊天机器人,还是通过虚拟试妆服务在线购物。增强的数据安全性意味着企业可以在保护用户数据的同时提供卓越的 AI 服务。边缘 AI 推理是大规模部署 AI/ML 生产的关键推动因素,可推动众多行业的 AI/ML 创新和效率。
0 阅读:4

米言看科技

简介:感谢大家的关注