近日,商汤科技在WAIC 2024上宣布,已在行业内率先实现原生多模态大模型的车端部署。商汤绝影的车载端侧8B模型首包延迟可低至300毫秒以内,推理速度40Tokens/秒,能够覆盖主流算力平台。
商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示,“基于原生多模态大模型,商汤绝影正在打造一系列全新的车载智能化产品,推动智能汽车向超级智能体进化。”
商汤绝影在行业率先实现原生多模态大模型的车端部署
实现原生多模态大模型的车端部署
此前GPT-4o的发布,为消费者展示了多模态实时交互的方式,智能汽车同样承载多模态大模型的落地场景。
通过智能汽车内外的各种摄像头,用户可以实时跟汽车通过多模态的方式进行交互。同时,智能汽车的保有量不断增加,能够产生丰富的终端用户反馈和数据信息,让模型不断迭代成长。
和OpenAI等公司相比,商汤绝影是汽车智能化的核心供应商,在智能驾驶和智能座舱领域具备一定的量产经验,将以多模态大模型为核心加速「以人为本」的智能汽车交互革新。
相比于其它终端,智能汽车有其特殊性,对安全和实时响应有着非常高的要求,汽车是私密空间,终端用户非常在意隐私保护。
这就决定,多模态大模型大部分的任务将在车载终端完成。商汤绝影能够以云侧、端云结合、端侧等全栈方式灵活部署多模态大模型,让商汤原生多模态能力能够快速落地智能汽车。
据悉,商汤绝影此次展示的8B模型(即80亿参数)车端部署方案,搭载在200 TOPS+平台上。
相较于动辄就有几秒钟延迟的云上部署方案,商汤绝影的车载端侧8B多模态模型可以实现首包延迟可低至300毫秒以内,推理速度40Tokens/秒。
商汤绝影端侧8B模型线下演示——虚拟拟人问候
商汤绝影端侧8B模型线下演示——交警手势识别与理解
活动上,商汤绝影还对外展示了在多个不同算力平台上运行2.1B或8B端侧多模态大模型的适配能力。
根据官方介绍,明年,上千TOPS算力的车载芯片就会问世。基于更高算力的计算平台,商汤绝影多模态大模型车端部署方案的首包延迟将大幅度降低,推理速度进一步提高。
引领多模态车端部署,商汤绝影有「杀器」
过去,许多模型处理不同模态信息是先把语音等输入转化为文字,文字和图像结合进行分析,输出反馈也是先生成文字,根据文字再生成语音输出,会有大量信息丢失和很高的延迟。
多模态大模型能够将语音、文字、图像、手势、视频等各种模态进行高效且深度地融合,提供更加丰富且自然的人机交互体验。
商汤本次发布的全新商汤多模态大模型,「基于商汤日日新5.5」体系,属于一种端到端的模型,也就是文字、语音、视频等模态一同输入,模型统一处理后输出相应模态的信息,相较于过去的方案,多模态融合的技术难度是几何倍数的提升。
「日日新5.0」是国内首个对标GPT-4 Turbo的国产大模型,「日日新5.5」体系更是全面升级,数学推理、英文能力和指令跟随等能力明显增强,交互效果和多项核心指标实现对标GPT-4o。
要让多模态大模型从云上落地到车端,商汤绝影还有更多的秘密武器。
由于车载硬件、系统种类繁多,各种加速芯片层出不穷,其他行业和开源的框架工具很难完全支持和适配,同时也为了解决自回归方式生成token效率较低的问题。
为此,商汤绝影专为多模态大模型打造了一个高性能计算引擎「HyperPPL」。它综合了大语言模型、多模态模型、CNN模型、前后处理完整的优化能力,是智能汽车领域最广泛的高性能AI芯片异构计算平台。
HyperPPL目前扩展并支持主流车载计算硬件,兼容多种主流操作系统,适配多个车载芯片的部署平台,可推动商汤绝影原生多模态大模型在主流芯片平台均可快速部署上线。
同时,HyperPPL支持flash decode、segment prefill等400多个硬件算子,并对算子进行性能优化,同时量化支持int8、int4模式,并支持训练后量化,从而提升推理效率。
相较于大多数开源的Python推理框架、C++推理框架以及训练推理框架,商汤绝影自研HyperPPL方案在Orin平台上的推理速度更快,超过40 Tokens/S。而对比英伟达的原生推理框架 TensorRT,绝影的HyperPPL在推理能力相当的情况下,在内存上有明显优势。
不仅如此,商汤绝影HyperPPL还针对车载多人场景进行优化,使得车内多人并发情况下,车端多模态大模型的模型推理效率相比单人没有明显降低。
这些产品为商汤绝影引领多模态大模型的车端部署保驾护航。基于车端原生多模态大模型,商汤绝影将与合作伙伴共同打造全新的车载智能化产品,加速智能汽车驶入AGI时代。