「蔚小理」们，摸着特斯拉的石头过河 - 汽车资讯(幸福双城资讯网)

这两天我在美国加州体验了 FSD v12.3.6 的版本，也打了一台 Waymo 体验。

总的来说，在旧金山城区 Waymo 表现更好，而 FSD 在硅谷和高速表现极好，可以达到很高的分数，很多路况处理都很丝滑。我非常感慨 FSD 在数月里有很大的进步，我们也会向 FSD 学习他们优秀的功能点和用户体验部分，我相信 2025 年会是完全自动驾驶的 ChatGPT 时刻！

上周，何小鹏远赴北美。除了现场观看 NBA 决赛，参加投资趋势会议，还顺便亲自体验了特斯拉的 FSD v12 以及 Waymo（Alphabet 旗下无人驾驶出行服务商）的智驾表现。

何小鹏在美国体验特斯拉 FSD-图片来自微博@XP-何小鹏

马斯克曾在 4 月末进行了一次极速访华，本次访华的目的是讨论 FSD 在中国落地的可能性。

在其飞抵北京的同一日夜间，中国汽车工业协会、国家计算机网络应急技术处理协调中心发布《关于汽车数据处理 4 项安全要求检测情况通报（第一批）》，通报指出：

特斯拉上海超级工厂生产的车型符合规定要求，首批 6 家合规车企中特斯拉是唯一一家符合要求的外资车企。

成为首批合规的车企，这也意味着特斯拉有望各地陆续解除禁行禁停限制。而特斯拉中国官方的 FSD 购买页面描述，也从「稍后推出」变更为「即将推出」。

特斯拉 FSD 落地中国，正比任何时候都要接近成为现实。

Elon Musk-图片来自：AFP

远赴特斯拉大本营，亲自体验 FSD，何小鹏其一重要目的是：让 XNGP 与特斯拉的 FSD 隔空较量，看看两者孰强孰弱。

昨日，何小鹏在社交平台上放出了 FSD 体验的详情视频，主体的体验环节由三段导航里程（加州大道-斯坦福游客中心-谷歌游客中心-Mission Bay）组成。

电车实验室对视频内容要点做了较为完整的速记，以此回顾何小鹏对 FSD v12.3.6 的体验观点：

事实上，这已经不是国内新势力首次与 FSD 的「隔空对标」了。

余承东不止一次在发布会上透露，华为内部团队曾远赴美国旧金山等地，将华为的 ADS 与特斯拉的 FSD 进行了测试对比，而他认为华为的 ADS 智驾系统仍然拥有着全球最好的智驾能力。

如 2020 年特斯拉中国成为新能源市场「鲶鱼」的那个前夜，靴子即将落地的 FSD，也正成为国内车企争相对标的对象。

何小鹏为特斯拉 FSD 鼓掌-画面截自微博视频号@XP-何小鹏

端到端，AI 的新秩序

频频被提及对标，特斯拉在 FSD 上做到了什么。

去年 8 月，加州 Palo Alto，马斯克亲自完成了一次 FSD v12 的实车测试。他驾驶一台搭载 HW3.0 硬件的 Model S，从特斯拉工程总部出发，全程实况直播。

时长 45 分钟的测试中，这台运行 FSD v12 的 Model S 仅出现一次被迫接管情况，马斯克表示：FSD 会模仿人类的驾驶习惯，神经网络的可成长性也将大幅修窄智驾的犯错空间。

马斯克所说的神经网络，指的是端到端神经网络（End-to-End）。

何为 End-to-End 端到端架构？

在自动驾驶主流开发中，往往会将系统分为感知、规划、决策三个模块，先感知车辆环境，再规划行车路径，最终输出执行路径完成 AD 系统的运行闭环。

分拆的模块模仿了人类驾驶认知-分析-决策的步骤，模块间独立运行，提升模块间透明度的同时还降低了开发的难度。

支撑模块运行，是其背后大量的人工代码，三个模块的代码量也意味着智驾人员的冗余庞杂。而更关键的问题在于，人工代码始终是规则框架内的产物，在代码驱动下的自动驾驶无法处理长尾问题。

相比主流方案，特斯拉的端到端模型将感知、规划、决策的模块融合，形成新的神经网络。

马斯克透露：引入端到端神经网络后，特斯拉替代了 FSD 中 30 多万行的 C++ 代码，v12 初始版本的人工代码仅剩下 3000 行。通过神经网络，特斯拉车辆在直接输入传感器数据后，即可生成制动、加速及转向信号。

抛却「死板」的人工代码，特斯拉将大量包含人类驾驶的视频数据压缩，支持 FSD 的拟人化成长。

这也意味着：智能驾驶在完成 L2/3 的布局后，下一步的目标就将会是 L5 完全自动驾驶。

2 月中旬，特斯拉确认开始向非内部员工车主推送 FSD Beta v12.1.2。尽管推送覆盖面积仅为随机 0.5%-2% 符合条件的车主，但基于端到端神经网络的智能驾驶，走出了大规模应用的第一步。

E2E 神经网络的出现，松开了长尾事件对智驾开发的束缚，创造了更有想象力的技术上限。但在享用端到端大模型先进性的同时，车企还要有足够的体量支撑。

想要大模型准确、无误地修正驾驶逻辑，车企需要为此投喂大量高质量的驾驶数据，数据库首先就会受到挑战。

这对于特斯拉来说，并不是什么难题，从生产第一辆 Model S 开始到今年 4 月，特斯拉在全球范围总计生产超过 600 万辆新车，而多年来 FSD 驾驶的累计里程也已经超过了 10 亿英里（约 16.09 亿公里）。

7 个视角的模拟现实视频输出-内容截自 X（原推特）

除了真实的海量道路片段数据，马斯克透露：大约一年多前，特斯拉就已经能够利用精确的物理原理制作真实模拟世界的视频，而相比爆火的 Sora，特斯拉领先之处更是在于能够提供极为精准的物理现实，帮助 FSD 更好地理解现实世界。

从 2023 年集中爆发以来，AI 技术在可感知的 2 年内，就完成了智能驾驶新秩序的建立。

新势力众生相：调整、探索随行

AI 需要的海量高质量数据，车企的智驾竞争，也是交付体量的博弈。国内有能力、心力跟进端到端大模型第一梯队的新势力车企并不多，主要还是集中在了头部。

小鹏汽车算是率先在端到端大模型上拔得头筹的新势力车企。

今年 5 月，小鹏在 AI Day 上宣布国内首个量产端到端大模型上车。整个大模型包括神经网络 XNet、规控大模型XPlanner 以及大语言模型 XBrain，三者融合取代以往主流的「感知-规划-控制」的独立模块逻辑。

XNet 神经网络负责模拟人类视觉，将自动驾驶的感知能力提升 2 倍。何小鹏将 XPlanner 形容为是人类的「小脑」，在海量高质量数据训练下，XPlanner 能够帮助车辆的决策拟人化，减少顿挫、卡死、接管等等情况；而 AI 语言大模型 XBrain 提供大脑般的理解能力，帮助处理复杂、泛化的道路问题。

何小鹏表示：2024 年将投入 35 亿元用于智能研发，小鹏汽车的端到端大模型可以实现 2 天 1 迭代，18 个月就能够将智驾能力提升 30 倍。今年第三季度，小鹏预计将会实现「全国都能开，每条路都能开」的智驾体验。

延续何小鹏输出 FSD 体验报告的热度，昨夜小鹏汽车自动驾驶负责人李力耘，再次在微博上发声，他称：

目前行业所说的「全国都能开」，一种是白名单式，支队城市内部分白名单道路开放，或只招募部分满足一定门槛的白名单用户；另一种是黑名单式，出了部分特定场景不能开，其余全国所有路都能开。

小鹏 XNGP 就是后者之一，今年 7 月小鹏汽车也将全量推送「黑名单式」的全国都能开。

国内首款端到端首发，加速了行业入局布置的速度，而在新技术的探索中，也伴随着动荡的调整。

小鹏正为端到端技术的到来，更积极地调整智驾团队的架构，据 36 氪汽车报道消息称：小鹏汽车在智驾部门下成立了 AI 部门，针对性推进端到端等技术。

图片来自微博@XP-李力耘

几乎是在同一时期，理想汽车开启了新一轮的裁员计划，整体优化比例超过 18%。在其发布 2023 年财报详情中，理想汽车的员工总数超过 3.16 万人，在此优化占比下，预计超过 5600 人受到影响波及。

受到最大影响的是 HR 招聘部、销售运营部以及智能驾驶部门，其中，理想汽车的智能驾驶团队规模已经缩减至 1000 人以内。

智驾团队震荡精简，理想却没有停止对端到端大模型开发的推进。在 2024 年中国汽车重庆论坛上，李想谈起了自动驾驶，他称：

从去年 9 月开始，理想内部就在思考一个问题，并专门组建了一个专门用于自动驾驶的团队。

有个最简单的问题，人为什么开车不需要学习各种极端情况？如果不能解决这个问题，所有自动驾驶团队每天干的活就是通过人工去调试各种极端情况，这离自动驾驶的实现就会越来越遥远，人类开车与以往自动驾驶的开发方式有着根本的不同。

今天很多自动驾驶团队都在做「端到端」，完整的训练频段放进来，从输入直接到输出，相比过往的独立模块效率要高了不少，但挑战是难适应人类规则。

挑战有三：专做端到端数据训练的人才，真正高质量的数据以及足够多的算力。

以此为理念，理想团队对「双系统」技术路线有了更多探索。

理想团队从丹尼尔·卡尼曼的著作《思考，快与慢》中获得灵感，人类快思考占据了日常大脑 95%的工作，而逻辑严密、缓慢的思考工作则约为 5%。

人在驾驶时，近乎 95%的动作是肌肉记忆，精力花费不多，只有碰到紧急情况下才需要观察路面，思考给出下一步决策。

自动驾驶系统同样如此，端到端为快思考系统，足以处理正常的自动驾驶，而理想引入了视觉语言大模型 VLM 作为慢系统，增强兜底及泛化能力，负责解决复杂的长尾问题。

AD Max3.0 目前拥有 2 颗 OrinX 芯片，而理想的核心思路是，一颗 OrinX 用于端到端模型的布置，另一颗则被用在了 VLM 运行上，两颗 OrinX 芯片的算力用得刚刚好。

端到端模型能够理解，那 VLM 又为何物？

VLM 模型是 Vision-Language Model 的缩写，即视觉语言模型，这种模型既会看画面，也会用语言描述看到的事物，进而完成思考，这与人类处理紧急情况的逻辑是高度相似的。

端到端、VLM 两套系统上车，两套大模型同时开跑，端到端快系统的推理速度为 10Hz，而慢系统则为 1-2Hz，快慢系统并行运行，遇到复杂路况情况下，VLM 会进行更慢更深层次的逻辑推理，并及时为快系统传达信号，起到准确的介入干涉作用。

VLM 就好比是具备成长性端到端模型的实时老师，理想将此拆分为快慢系统的好处是：降低了自动驾驶技术的开发难度，加快了技术上车。

李想进一步表示，理想汽车将在今年的第三季度推送无图 NOA，并向测试用户推送基于 300 万 Clips 训练后的端到端+VLM 版本。

与此同时，李想还对更高级的自动驾驶做出了研判：有监督的 L3 级自动驾驶最快今年年底，最晚明年年初实现，3 年内可以实现无监督的 L4 自动驾驶。

步入调整的还有蔚来。

上周，晚点 Auto 曾发布独家消息称：蔚来的智驾研发部完成了架构调整，此前蔚来智能驾驶研发部份为感知、规控以及集成等部分。调整后，感知和规控团队将合并为大模型团队，继承团队重组为交付团队。

放弃过往「感知-决策-规控」的开发思路，调整架构的蔚来也正在推进端到端大模型的开发探索。

搭载端到端架构的 FSD v12，已经开始在北美大规模推送。在特斯拉 FSD 落地中国的微妙前夜，新势力们正摸着特斯拉的「石头」，抢滩国内端到端高阶智驾。