蔚来节奏激变是如何发生的？|采访手记

2024-04-30 蔚来

采访｜李勤李安琪

文｜李安琪

编辑｜李勤

今天智能驾驶的发展节奏，几乎所有从业者都未预料到。

2022年底，在蔚来智能驾驶研发副总裁任少卿的判断里，城区NOA（领航辅助驾驶）的规模铺开，需要挨个开城。

但进入2023年，一下子就要“全国都能开”。始作俑者是华为。甚至华为提出的“全国都能开”，也是在同行不断加码开城目标后，被动做出的调整。

智能驾驶是嫁接在智能汽车核心属性中的技术变量，它被认为是最大势能的变革之一。在各家车企的落地节奏中，自然寸步难让。

但可能少有人料到，是蔚来紧跟华为，把“全国都能开”的高阶智驾交付给用户。去年开始，华为喊出智驾“全国都能开”，不断刺激着同行的神经。蔚来智驾则相对低调，鲜少参与开城数字交锋。

今年开始，蔚来智驾风格突变，斗志拉满。

按照蔚来的计划，将于4月30日开启全域领航辅助NOP+全量推送。不仅成为华为之后，第二家交付全域领航辅助驾驶的车企，从用户推送规模看，也是目前体量最大的一家，超20万量级。

蔚来节奏激变是如何发生的？

数日前，36氪在北京见到了蔚来智能驾驶研发副总裁任少卿。近3个小时交流中，任少卿分享了智驾工程、技术和安全等问题，以及对端到端自动驾驶、世界模型等前沿技术的洞察。

蔚来_蔚来es6汽车价格及图片_蔚来et5汽车价格及图片

蔚来智能驾驶研发副总裁任少卿

2020年8月加入蔚来前，任少卿已经是计算机视觉领域的风云人物。其毕业于中国科大与微软亚洲研究院联合培养博士班，2016年曾获得全球计算机视觉顶级会议CVPR 最佳论文奖。毕业后还参与创立智能驾驶公司，担任研发总监。

然而，智驾量产之路荆棘遍地。虽然投入重资，蔚来直到2023年才发布全域领航辅助NOP+功能。质疑伴随着蔚来智驾团队。

任少卿说，蔚来有自己的逻辑和节奏，“我们习惯于把基础的东西先做完”。团队除了经历早期4颗Orin芯片的域控制器控选型，还重写了软件架构。2022年，任少卿判断，智驾必然会从高速走向城区，因此带领团队开始部署兼容城市场景的算法架构，“我们不是第一个推出城区智驾功能的公司，但是第一个城区技术架构上车的”。

蔚来CEO李斌为团队构建了以汽车工业为基础的认知逻辑，即围绕“十几年车辆生命周期”做技术布局。

蔚来的思路是，智驾软件至少做到10年更新，三代软件同架构，硬件起码要保证6-7年的最佳体验。

蔚来在二代平台车型标配4颗英伟达Orin芯片，整车AI算力1016 Tops。蔚来的坚持一度被质疑，毕竟同行普遍采用2颗Orin方案，即便蔚来第3颗Orin作为系统冗余，仍有1颗Orin“赋闲”。

但在蔚来的技术体系下，节奏突变的关键，也是找到了第4颗Orin的用武之地，跑出“群体智能”路线。

2023年9月，任少卿和智驾团队定下目标，在今年二季度完成60万公里城市道路验证。

行业普遍的做法是，自建测试车队，即一城城验证后开通路线。但结合群体智能，蔚来可以通过每台量产车的1颗Orin算力，乘以规模数量，得以验证道路的智驾功能是否可用。这超出蔚来意料，原定9个月的才能完成任务，实际只用了3个多月。

蔚来智驾开始“狂飙”。任少卿表示，目前每月的道路验证里程达数千万公里，蔚来智驾已经在全国726个城市铺开。

在任少卿看来，在整个智能驾驶的技术落地背后，根基是安全。

蔚来推送全域领航辅助驾驶的一个核心标准，就是事故率低于人类开车，未来2-3年，蔚来还计划将事故率降低30%乃至更低。

为了减少事故风险，蔚来选择了一条枯燥的道路：分析用户的所有智驾接管数量。“每天可能达几百万次。”第4颗Orin可以筛掉99%无用数据，再经过复杂流程，得到万分之一安全接管案例，回传至云端。此外，蔚来还能通过ADAS（辅助驾驶）和ADMS（增强型驾驶员感知系统）等系统精准地提醒用户，减少事故发生。

技术演进方面，“端到端”被视为智驾行业下一代方案。

据任少卿介绍，蔚来的端到端智驾方案是将感知模型与规控模型合并，实现信息无损传递。当前行业各家基本都在构建感知大模型与规控大模型。

大模型化很重要的一点是，让智驾拥有更强的预测能力。就像大语言模型能够预测下一个字词，智驾也要具备对物理世界的时空认知能力，认识“路面下雨会打滑”等物理规律。

这背后是更庞大的世界模型。去年中，蔚来开始探索机器人世界模型，目前已有阶段性成果，端到端方案也将在年内发布。

任少卿认为，机器人世界模型的建立强依赖于机器硬件如智能汽车、机器人等。而这些硬件生产与供应链能力，恰恰是中国公司的强项。这也是车企做世界模型的优势所在。“车企一定会是真实世界中领先的人工智能企业。”

以下是36氪汽车与蔚来智能驾驶研发副总裁任少卿的对话，经编辑：

「谈城区智驾：华为教会了大家打“心智战”」

36氪汽车：从竞争角度来看，大家加快开城速度与华为有关系吗？

任少卿：华为教会了行业怎么打心智战。智驾的使用和熟悉成本确实比较高，像座椅电视这种，10秒钟搞不明白，一分钟总搞明白了。但智驾说不清楚，一些测试和试驾最少得跑两三个小时。华为让消费者认知到了智驾。

36氪汽车：“全国都能开”对于智驾行业有什么特别的意义？

任少卿：自动驾驶每年都有热词，2022年的BEV（鸟瞰图），2023年（占用网络），今年的全国开城、端到端大模型。对于头部玩家，今年上半年开城就会进入尾声。

城区智驾属于高端功能，但其实智驾还有两条线，往下走，做好更便宜的方案；往上走，探索L3级自动驾驶，法规、保险全部都要跟上。

36氪汽车：智驾功能之前是按城市是挨个验证的，现在明显感觉大家都来不及了，这对你们的价值观来说有挑战吗？

任少卿：之前大家不太理解我们的逻辑，最近逐渐有一些理解了。

我是2020年下半年加入蔚来，那时候正好是设计第二代平台。第一个不被理解的问题是，为什么把激光雷达装到头顶？

它确实挑战了很多传统车的设计语言，内部设计同学一开始也很难受。

这其实是基于我们的认知。激光雷达装在车顶比装在车前感知更远，泥点子、灰尘影响更小、维修成本更低，还不容易被撞到，对用户价值更高。

斌哥（蔚来CEO李斌）就去沟通造型设计的同事，他说这是挑战，也是个机遇，这是之前没有过的设计语言，如果做得足够好，可能会引领一个时代。

现在已经有很多车的激光雷达装在车顶，但细看，整体协调性和流线感还比不上蔚来的设计。

第二个被诟病的是4颗英伟达Orin芯片。但换个角度，大多数人的车怎么也得开个5-10年。Orin是2022年下半年量产，Thor（英伟达下一代芯片）明年量产，三年换代，难道三年也要换车吗？

芯片行业变化很快。从2017-2018年到现在，算力变化百倍千倍。的EyeQ4是2018年量产，算力2.5 Tops，但2022年的Orin算力254 Tops了，100倍差距。如果到2025年Thor量产，6年时间算力上涨500倍。

所以软硬件设计平台生命周期要足够长，这对用户的长期持有是最有价值的。我们想做到软件更新10年，三代软件同架构，硬件上要做到两代，6-7年时间。

36氪汽车：所以李斌的逻辑还是从汽车工业出发，不是消费电子？

任少卿：他考虑的是生命周期。车不是手机，不能一年一换，要看10年-15年。消费者买的时候可能加了一些钱。30万以上的车加3%成本，总比三年换一辆车成本低得多。

今年，能实现城区智驾的车，ET7是最老的一辆。很多比它晚上市的车，都做不了城区智驾。

36氪汽车：蔚来全量推送的标准是什么？

任少卿：我们的红线的是，全域领航功能的安全性一定要比人开要好。不管是全域智驾开放，还是车辆使用全生命周期，我们都希望能够减少事故。

减少事故，涉及到一个非常复杂的系统。首先要知道有没有事故？这不是一件容易的事。像气囊炸了这种很容易监控，但有些剐蹭，用户自己可能都不知道，也不知道别人蹭了你还是你蹭了别人。

我们从去年中开始建系统，一开始用气囊、IMU（惯性传感器）的数据，但都很难判断，后面把视觉和（占用网络）加入进来做剐蹭判断。

36氪汽车：很多时候是车辆快要蹭到了，用户安全接管，这种也会纳入数据分析吗？

任少卿：会有。冰山上的问题永远是小的，还需要看冰山下面的数据。所以我们建了第二套系统，分析所有接管。这是什么概念？一天几百万次接管，包括高速NOA的接管。这是一个更复杂的系统。因为数据量太大，可能都没有办法回传。

怎么办？群体智能。比如100公里接管了10次，车端一颗Orin可以筛掉99%不是安全接管的案例，剩下1%的安全性接管，再经过一个复杂自动化流程，再筛掉99%，得到万分之一的案例。所以其实是两个指标，真实事故和潜在事故。

36氪汽车：数据分析完了，怎么减少事故率？

任少卿：所以这是一套多级体系。第一级是基础功能加强，比如用OCC（占用网络）、激光雷达等增强对安全接管的分析。

然后是功能级警报。我们有两套系统，ADAS（辅助驾驶）和ADMS（增强型驾驶员感知系统）。之前驾驶员的监测逻辑是，用户可能不处于紧张状态，DMS也会做提醒，但现在我们车内外传感器都融合，判断风险场景的出现，更多信息输入，可以更精准地提醒。

我们还做了另一套系统，智驾分数。结合我们的事故分析，会发现低分用户与高分用户的事故率差8倍以上。低分数用户的事故率较高。高分用户能开的智驾功能或者小路就会多一些，低分用户可能在主干道上用智驾更安全。

36氪汽车：智驾全国都能开在二季度推送，这个决策是什么时候做的？

任少卿：可能就今年年初。一方面是，我们原定60万公里可能要9个月才能完成，就是去年9月到今年6月，但我们发现去年12月就已经差不多了，用户热力道路都搞完了。剩下的就是，解决安全和体验上的问题。这是一个巨大的拐点。

36氪汽车：如果没有华为，你们全量推送的节奏会不会更往后一点？

任少卿：华为也是因为之前有人喊出了100城，所以才往前走一点。中国跟美国智驾市场不一样，特斯拉更多按照自己的节奏来走，但中国是一堆人在旁边，大家都在互相卷。

36氪汽车：智驾追求安全和稳健，这跟这行业竞争的快节奏有冲突吗？

任少卿：我们的长期目标大家可能都认同，但短时间内确实非常卷，每个月不发一个智驾版本可能都会觉得落后，所以每个月都在发版。客观问题逃脱不了的。

但长期工作一定要坚持。工程师如果只为了每个月发版而卷，那没有意义。比如这版开发了某个功能，但下一版就没有了。长期的认知框架，可以保证做的事持续有用。

还要有很强的测试能力，测试迭代的能力能保证能够实现终极目标。比如原来智驾半年做一次测试，但现在每月一测。如果测试搞不定，就随便发出去吗？这肯定不行。

全国道路都能开，实际有两件事要做。第一是路真的能开，包括通用检测能力，去复杂路口记一些东西。这都是技术算法范畴。

第二是能验证。中国城区道路各种各样，北京朝阳跟海淀，跟平谷就不是一个世界。怎么能验证这些路都能开，其实是一个复杂系统。

「谈蔚来智驾：我们习惯把基础的东西做完」

36氪汽车：有技术公司认为，智驾是标准化的功能，不是产品，车企不应该做，您怎么看？

任少卿：我们不觉得智驾是功能，甚至也不是产品，我们觉得它是个服务。服务需要长期更新的，给用户提供可用、安全的、领先的东西。所以这也是我们一直在推订阅服务的原因，从商业逻辑上来说，买断智驾是不现实的。

买断一定会导致大家短视。就是现在很多车卖了，功能装到车上就结束了，后面更新就看车企的良心。

从价值来看，车如果要让用户事故率下降30%，肯定不能只把它当功能来做。功能只是智驾的低级阶段，但是中高阶段一定很快会来。

36氪汽车：一些车企智驾做的不错了，但市场还是怀疑，智驾是不是真得能帮助卖车？

任少卿：说白了智驾还是个小众市场，还没有进入大众市场。

这是需要我们从业者去做的。第一，价值持续扩大，城区智驾就是一个价值扩大的点。之前高速NOA的体验成本太高了，绕两小时才能体验到。城区智驾，可以降低用户试驾的认知成本。第二，智驾的安全性需要很强的第三方证明。有了证明报告，消费者能看到实际的智驾价值。

36氪汽车：现在智能驾驶的技术构型成熟了吗？还会有大的技术拐点吗？

任少卿：从技术角度来看，基本框架都在了，后面需要持续迭代和运营，是个系统性工程。比如怎么证明蔚来的总体事故率(包括人驾、人机共驾)真的减少30%，很难。因为用户只有在出事故时，才有明显体感。

但从规模群体来看，是有可能的。所以我们也在探索保险业务，跟第三方合作验证。

36氪汽车：L3大概在什么节点？商业模式上会有大的变化吗？

任少卿：L3就跟城区一样，小规模的使用和全量之间，还是会差1~2年。小规模可能会比较快。L3的决定性因素还是安全。如果遇到接管场景，用户可能要等一段时间，给系统几秒钟再接过来。

商业角度，从保险和责任维度上肯定有一些转移，原来个人负责，L3状态的话车企主责，保险逻辑和商业逻辑可能就要变发生变化。我们也在筹备保险相关的东西。

当然，还有政策等因素。蔚来也一直在积极推进政策落地，今年应该会有政策允许L3试点车型。原来的L4自动驾驶的测试都是纸质车牌，L3发会发铁牌，算是新型号的车。

36氪汽车：蔚来智驾开始服务乐道，会考虑别的合作吗？技术复用度如何？

任少卿：我们是一个很open的状态。现在我们的第二个品牌就在复用平台的技术，包括NT2.0和NT3.0也要同平台。硬件会换，但我们自己要求模块级的复用度——就是模块级复用的比例85%以上。我们也要在新的车辆平台验证，智驾架构能做到这些事，以及成本足够低。

另外，我们是国内第一个能够跨洲量产智驾的。在欧洲我们的高速NOP已经推送了。这是我们纯自研的第一代NOP，2022年3月份在国内量产ET7后，我们在当年9月份在欧洲量产了ET7，建立了功能安全、智能安全这些大规模量产能力。现在我们在欧洲去测纯感知、纯无图的NOP+。当然，也要在欧洲建立当地的数据中心。

36氪汽车：您从2020年8月加入蔚来，2022年12月全域智驾才推出来。这个过程应该是有很多外界的噪音和压力，您怎么应对的？

任少卿：加入的一年半，开始半年是传感器、芯片选型，建立团队。因为Orin 是全球第一个量产的，而且提前了半年；高线束激光雷达也是全球第一个量产的，所以前一年半从团队和工程上的挑战是很大的。

2022年3月份ET7量产之后，我们又在欧洲做量产，这又是一个很有挑战的事情。2022年底才推了高速NOP，这可能也让大家觉得慢了。

但慢的背后故事是，为了推高速NOP功能，我们把所有架构都重建重写了。当时有两个选择，NT1.0的高速功能（基于的方案）是比较成熟的，可以直接拿过来用，第二是全部推翻、重搞，我们选了后者。

我们的判断是，智驾功能一定不会止于高速，但NT1.0的架构是不可能支持高速以外的东西，城区智驾做不了。

所以在2022年3月量产了ET7之后，花了9月时间，重构了高速NOP的功能，到2022年12月才推出，接着推出城区功能。

而其他家，是用原来的方案做完高速领航，再做重写城区架构，车上有两套不一样的架构，然后反过来把城区智驾架构开放给高速NOA功能。

但我们不一样。我们是先把能够进化的架构重建了，先推了高速，然后再顺着推城区。我们是第一个有城区智驾架构，只是功能还没有实际推给用户。大家各自有的东西不一样，我们习惯于把基础的东西先做完。

36氪汽车：城区智驾的仗打完了吗？

任少卿：全量全国都开了，往后走，还有城区的持续优化。

我们觉得，智驾开城整体需要两年的周期。开点是去年年中，第一年大家要解决的问题是智驾功能可用，全国道路能开。第二年要解决的问题就是，智驾好用。

所以我们还需要花一年左右的时间，把城区的智驾体验推到现在高速领航的等级。

「谈AI：车企做世界模型更有优势」

36氪汽车：你之前在微软研究院提出了图像识别架构，那怎么看也用来做图像识别，它会是更加主流的东西吗？怎么看行业端到端智驾趋势？

任少卿：已经是主流的东西。AI未来10-15年就两个趋势，一是性能更好，比人干的好。原来AI对话觉得很傻，但现在已经靠谱很多，看起来更像人了。二是追求更通用，原来模型只能做3件事，现在做5件事。架构的好处就是，一下这两个方向都卷完了，算是一个里程碑，但演进还会持续。

36氪汽车：端到端会对现在的城区智驾是个颠覆性的事吗？

任少卿：特斯拉FSD V12在北美的表现已经非常好了，但特斯拉也不容易，搞了6年才全量推给用户。

大家都说“端到端大模型”，我把它分为三个事儿，第一层叫模型，现在国内车辆完整上模型的都没几家，别说端到端大模型了。感知模型大家可能都上了，但规控还没有。

但这里有很多工程的挑战。举个例子，原来的多模块方案，如果要改个控制策略，就在10万行代码中找到具体的几行参数改写一下。这10万行代码可能写了一年，但只改三行，只测1%的case，3天能完成。

现在上了模型后，如果场景的规控策略不行，就得重新训练一个，重新测一遍。那三天能不能测完？很难。这都不是算法的问题，是底层能力，只能靠自动化。

去年中，蔚来在高速NOA的规控里加入AI神经网络。所以第二层是端到端，其核心是把感知模型、下游的规控模型连在一起。有了模型，才能有端到端。

之前感知模型输出、规控模型的输入是一个数据结构，由人工来定义，很容易有信息丢失的。比如描述一个人，人工会定义描述身高、体重、性别，但写的再多，也不全面。如果某天AI神经网络需要知道人的表情，但不好意思，之前没有定义没有学习。

而端到端不用再定义数据结构，直接把原始数据扔进去，AI神经网络需要什么就自己选择，解决了数据流失的问题。我们今年也会推出一些端到端的东西，但最大的挑战还是在工程上。

第三是大模型。大模型有两种，一种是语言模型，另一种是世界模型。

语言模型是对一些人工抽象概念的认知能力。世界模型则是要建立对世界时间、空间的认知能力。比如现在会议室有四个人，但如果要把场景细节都说出来，是说不完的。

除了精细描述，还要学一些物理规律，比如杯子掉了会碎，路面下雨会打滑，建立这种世界认知。

这还非常早阶段。我们从去年底开始训练世界模型。某种程度上它是一个预测器，或者是对世界仿真器。表现形式就是，车辆预测一个场景之后发生的事情，如果跟人的认知一致，某种程度上可以说他学会了认知。

36氪汽车：那这个世界模型会首先用在智驾哪些地方？

任少卿：一种方式是，直接让模型输出轨迹去控制车辆，这有点激进了。现在我们只把它作为一种预测参考，接到下游的规划模型。

36氪汽车：端到端方案的过程比较黑盒，智驾系统的下限是可以把握的吗？

任少卿：现在能看到提升，但下限确实是需要工程化手段去保证。毕竟马斯克只是说他在FSD v12删了多少行代码，但没说他留了多少代码。如果功能回退，要么改模型，但周期很长，要不然就加规则。这是个螺旋上升的过程。

36氪汽车：自动驾驶会遭遇高质量数据的瓶颈吗？大语言模型已经遇到了。

任少卿：语言模型的瓶颈是因为互联网的语言数据要没了，但机器人的世界模型，远没到那个阶段。语言本身是个高信息密度的东西，用人类几万年、几千万年的数据来训练。但如果把它转成图像或者说激光雷达信息，同样的时间长度数据会非常可怕。

现在上万小时的视频训练，已经是大家的极限。只要付得起带宽费用，几十万上百万的车辆数据几乎是无穷的，没有到瓶颈阶段。但机器人训练的数据没有互联网这么公开，相对比较难弄，这点车企会比较有优势。

36氪汽车：车企真的有可能成为一个领先的人工智能企业吗？

任少卿：现在AI更在虚拟世界发挥作用，还没进入真实世界终端。进入真实世界时，就需要更大规模的实际数据源。车企一定会是真实世界中领先的人工智能企业。

36氪汽车：端到端大模型实际上车会是什么时间节点？

任少卿：我们其实会分开来看，端到端肯定已经在桌上了。大模型我们还在验证，把它接进去到底能产生多大的价值。

大模型不是指绝对的大小，而是训练方式和逻辑不一样，太太底层了，并且用户其实没有太大的体感。它是一个渐进的过程，很多公司连模型化的工程积累都还没有，就要考虑端到端，跨度有点大。

36氪汽车：现在AI大模型成为新风口，车企怎么跟AI科技公司拼人才吸引力？

AI的风口其实是一波接一波的。2016年火的是AI四小龙，后面是L4自动驾驶、然后AI制药、2022年开始是量产智能驾驶，2023年是AI大模型。风口热闹的时候，赛道都是最有吸引力的时候。

但对从业者来说，肯定要经历风口到冷静期的阶段，更多还是要看长期价值、长期竞争力。

自动驾驶所代表的机器人赛道，肯定是有长期价值的。中国和中国车企在这些点上是有长期竞争力的。

回到语言模型，国内的语言模型的劣势在于，用户的规模，说英语和中文的用户体量不是一个量级。但机器人世界模型，中国是有一定优势的。世界的本质是一样的，而国内公司的优势在于，需要硬件去触摸世界。生产能力、供应链能力，是中国公司的强项，数据积累的能力并不弱。

大模型这一仗能打一打，就看怎么打。所以AI人才是一波一波的，但要讲好自己的故事，走好自己的路。从业者也不傻，想清楚自己的积累，找到要发挥的价值，就可以搞明白。