第二代端到端:VLA(视觉-语言-动作)。
第二代端到端也准备来了,理想昨天财报也有提到,理想 L4 的预研是通过车端 VLA +云端世界模型做强化学习。
什么是 VLA,和第一代端到端有什么区别?
VLA 大白话就是:没有了系统二,直接靠一个系统输出轨迹。但二代端到端的出现基本都是冲着 Thor 来的,也是明年一大技术主流。
一代端到端是靠系统一(快系统)+系统二 (慢系统)。系统一负责直觉直接做,系统二是一个 VLM 模型帮助系统更好理解环境信息,然后告诉系统一怎么做。但毕竟还是有“分工”和“交流”的过程,一定程度上带有延迟。
二代端到端 VLA (视觉-语言-动作)就是把系统一和系统二合并,变成一个大系统,系统一的直觉和系统二的环境理解一起输出,结构更加简洁,推理和执行效率更高。
进一步实现 AI 通用化。
#新能源汽车##大v聊车##理想汽车#