无图和端到端大模型的应用,是智能驾驶下班场要最先卷的功能和模式。先交卷的是华为,已经准备7月交卷的是理想,前两位之后,小鹏却迟迟还没有交卷的意思。在理想7月份准备全量推送无图NOA功能的同时,小鹏开始推送XNGP 5.2.0的版本。
小鹏的XNGP 5.2.0这个版本最核心的升级,是提供了端到端大模型的上车应用,主要是优化了大部分的城区NOA功能,这其中包括的功能有无图过环岛、掉头体验升级、小路灵活穿行等。
整体来说,推送更新之后,提升和变化肯定是有的。但这次推送的5.2.0版本毕竟还是比较早期的版本,智能驾驶层面的问题是存在的,包括了逻辑和决策上的失误,也包括了无图端到端带来的负面影响。
激进的策略,有一定危险性小鹏的XNGP 5.2.0版本的底层逻辑,是加了一套端到端的AI大模型。主要的变化是具备深度学习的功能,这其实是意味着这套系统需要很大的数据量来学习,并且不断优化智能驾驶功能。简言之,理论上越用越好用就是。
核心升级是XNet 2.0版本。怎么理解这个升级,带入特斯拉FSD智能驾驶系统举例,无论是华为、理想还是小鹏,他们的智能驾驶功能下一步想要达到的阶段,是像特斯拉一样的One Model形态,也就是一个模型来完成所有的感知、预判和执行。
但由于目前算法和数据量不够,目前只能是多网合一的处理模式,小鹏的XNet 2.0做的是三网合一的模式,动态+静态BEV+占据网络。静态BEV只负责识别道路环境的静态元素、动态BEV负责道路环境中的动态目标(车、行人等能动的物体);占据网络,把数据做成3D模型,是系统绕行和避障能力的基础。
靠三个网络来实现一套系统的感知、规控以及执行,所以在一定层面上,三合一的网络模式是会增加不同模块之间的交互复杂性还有潜在的数据冲突可能性。相比One Model模式,系统稳定性和可靠性就不那么好。
那么,现在我们接触到的5.2.0版本,足够好用吗?
5.2.0版已经推送了一个星期左右,在使用这套智能驾驶之后的感受,基本的城区NOA功能都可以实现,但是,要说细节上很拟人也并非是全部工况下都能实现。
先说不足的地方,通行逻辑层面。
在开启城区NOA功能之后,在城市道路中工况下,整体驾驶风格是偏向保守的,比如车辆在路口右转弯的时候整个策略依旧是选择等待,没有选择绕行的操作;本车后方的车辆,借道通过路口后,从左侧超越了本车后完成的右转弯。
而在这个工况下,我们的测试车,只能选择等待,这并不算是一个合理的通行逻辑,或者说在小鹏目前的训练素材当中,红绿灯路口选择等待是最合理的方案。
减速策略、路径预测上的问题。
乡间小路上的一个驾驶工况,双向单车道,在前方有交叉路口并且有车辆左转弯汇入对向车道的时候,小鹏XNGP 5.2.0的智能驾驶功能并没有主动减速,而是保持继续40-50km/h左右的速度行驶,后来被人为接管的打了一下方向。
这个场景下,暴露了两个问题:
看车机主界面上,是识别到了对向车汇入的信息,是识别出来了的,但没有做出减速,那很有一种可能是减速策略是偏向重刹,而非是缓慢刹车降速;
既然感知到了,但没有做出绕行或者规避的操作,可能是对对向车的行驶轨迹的预测出现了一定的偏差,否则不会出现人为接管避让的工况。
所以,在感知层面已经发现了对向车的时候,依旧选择加速通过,这么看在某些工况下的通行逻辑上也存在一定问题。
之后,是相对复杂的路口主动降级这事。
有红绿灯的大十字路口,道路标识清晰,主动降级到LCC功能,具体降级的原因不明;事后分析,可能是因为通行路口的红绿灯交错需要驾驶员确认、或者是因为通行路线并不是和所在路线对称(有一定错位,并且通行路口距离较长)需要驾驶员确认。
或许也能佐证这是真无图的方案,但,这种相对来说没那么复杂、道路标志清晰的工况下降级LCC确实不是特别能理解的事,因为这个工况下并不难处理。相对之下,理想AD MAX 3.0的测试版偶尔也会有从城区NOA功能降级的时候,但是出现在环岛这种工况覆盖不好的时候会有。像小鹏XNGP 5.2.0大路口的降级操作,至少在测试版上没遇到过。
激光雷达都一般,纯视觉咋办?试过小鹏XNGP 5.2.0版本之后,没能达到我所期待的那种好用程度,或许是前期训练的数据不够,或许是因为这是前期的版本,需要改进的东西还有太多。但,其实这应该也是比较接近最终推送的版本了,至少在功能的完成度上来看。
同时暴露的问题,也很明显。
可能三网合一带来的弊端就是响应速度慢,以至于在感知到了对向车的汇入,并没有做出合理的减速、规避等操作,至少在被接管前没有做出任何响应。要知道这套功能背后的感知硬件,是一颗激光雷达+双Orin X芯片做的背书。
感知硬件和芯片硬件挑不出毛病的时候,由于这次的更新又是端到端智能驾驶,那么只能从软件上找问题。因为端到端是一个黑盒模型,所以出现问题的时候基本无法追溯原因之后进行调试,那么小鹏XNGP 5.2.0目前所出现的不足,能解释得通的原因,就是数据不够用。
其实小鹏这次XNGP 5.2.0的推送,挺着急的,数据量不够的前提下就拿出来用了(可能是看华为、理想都交卷了?)。解释起来,就是端到端智能驾驶的需求是绝对丰富的高质量数据进行训练,而且对数据的多样性、丰富性有高要求(主要是对训练模型起到帮助,什么是对的、什么是错的),如果训练数据不足或质量不高,模型的性能可能会受到限制。
那,在智能驾驶功能遇到没有训练过的工况下,会出现怎样的情况?只能是降级LCC,让驾驶员确认并且接管驾驶,因为端到端大模型里没学过或者训练过,所以只能人类驾驶员来操作(还是人车共驾)。
来推一波小鹏M03的智驾。
如果小鹏M03将会配备XNGP的话,纯视觉路线,感知设备大砍感知能力弱化,同时芯片算力也降。这套配置,基本上已经可以放弃思考和深层感知了,像路面的坑洼、细小物体的识别等,不太容易做出来,纯视觉+低算力芯片对大模型的依赖程度更高。
从这次XNGP 5.2.0的推送,基本能看出小鹏M03智能驾驶的上限可能性,如果有城区NOA功能,短期内(至少1年)不会有好用的体验,而且降低了的芯片算力能否在复杂工况下顺利执行操作,也是个未知数。
三网合一的模式应该还会继续用,纯视觉的动态BEV、静态BEV和占用网络的准确性,肯定会降级,尤其是在高速动态下的环境感知,挑战更大。怎么匹配端到端的模型数据,达到好用的程度其实挺难的,而且还是三网合一(相对来说有高延迟和滞后性的问题)。挑战很大,做好不太容易。
理想的智驾听一听就可以