在美国纽约皇后区法拉盛的街道上,一辆特斯拉正行驶在略显狭窄的街道上。

迎面而来的是一辆体积颇大的白色卡车,前方的汽车刚好准备转向,旁边的行人试图穿行马路。而这辆特斯拉并没有选择去旁边红色区域的专用公交道避锋芒,而是在既定的道路上缓慢地通过复杂路段。

整段操作的背后并不是经验丰富的老司机,而是搭载了FSD 12.3.6的特斯拉。

特斯拉又造风口了

2023年8月26日,马斯克在X平台上进行了一段时长45分钟的FSD V12试驾直播。三个月后,马斯克承认已向内部员工推送了FSD V12进行内测。12月份,特斯拉又向员工推送了更新的V12.1版本。

到了2024年3月18日,特斯拉开始在北美地区全面推送FSD V12.3版本,并预计在近期实现全面覆盖。

在马斯克看来,FSD V12是有史以来第一个端到端AI自动驾驶系统,“没有一行代码告诉它应该怎么做……什么规则都没有,它完全是在学人类做的事情。我们完全是通过视频训练来实现这一切,完全通过人工智能和摄像头,就像人类完全通过大脑和眼睛一样。”此时,中国国内的主机厂和供应商,也紧随特斯拉的脚步,“卷”起了端到端自动驾驶方案热潮。

走分治法 VS. 端到端方案

智能电动汽车发展下半场是汽车智能化,谁家更快实现完全自动驾驶,谁就有可能抢占竞争高地。

目前讨论实现完全自动驾驶主要有两种方法。

第一种是传统的分治法,顾名思义,“分而治之”。分治法将自动驾驶任务进行切分,形成多个子任务,每个子任务解决驾驶过程中存在的某些特定问题,比如感知、预测、决策、执行,最终进行系统集成完成整个驾驶任务。

传统的自动驾驶方案,在调用感知模型处理过信息并进行路况预测后,需要结合工程师提前写入的规则,来控制方向盘、加速或刹车,并按照安全路线行驶。为了尽可能应对路上遇到的各种情况,曾经,特斯拉数百名工程师写了30万行C++代码用以制定规则。

分治法将复杂的任务切分,大大降低了系统开发难度。与此同时,该方案可以针对每个模块进行白盒化分析,具有很好的可解释性。

缺点也很明显,任务太多会导致集成困难以及错误累加。同时,系统设计时引入了过多的人为经验,但难免缺失部分罕见场景,系统对于陌生的场景如果没有相应规则往往无法处理,发展天花板较低,泛化能力较差。

特斯拉又造风口了

另一种则是自动驾驶端到端方案。端到端方案不进行任务切分,直接输入传感器数据、输出驾驶决策,从而省去传统分治法里的感知、预测、规划等各项子任务。

端到端的方案处理的任务少,能够避免大量重复处理工作,提高计算效率。同时,该方案不需要制定大量的人工规则,只需要采集足够多的优质驾驶数据来训练即可。

特斯拉的更新日志提到,FSD Beta v12对城市街道驾驶栈进行了单个端到端神经网络的升级,这个神经网络基于数以百万计的视频片段训练而来,替换了超过30万行明确编写的C++代码。

特斯拉引入的神经网络是黑盒状态,但是在完成拟人化任务方面比规则代码更加奏效。但也是因为是黑盒状态,可解释性很差,无法与传统自动驾驶方案一样将中间结果拿出来分析。与此同时,端到端对数据要求非常高,需要高质量、分布多样的、海量的训练数据。

 主机厂争抢先机

“端到端方案,既无必要,也不完备。”

4月1日,Mobileye官微的一篇推文《自动驾驶是否即将进入“ChatGPT时代”?》提到,Mobileye对端到端自动驾驶系统能否全面应对自动驾驶挑战表示担忧,认为其还不够完备。与此同时,Mobileye判断端到端自动驾驶系统大材小用了。

与此同时,FSD的用户开通率不及预期。5月14日特斯拉投资人、未来基金管理合伙人Gary Black在社交媒体表示:在获得FSD一个月免费试用的特斯拉美国车主中,只有2%的人在试用期结束后选择订阅了该服务,而他本人之前的预期是6%。

特斯拉又造风口了

但大部分厂商还是坚定看好端到端自动驾驶方案。

“端到端自动驾驶是未来最有希望实现无人驾驶的途径之一,大模型将对自动驾驶的技术发展产生深度影响。 ”毫末智行数据智能科学家贺翔如此判断。

国内与贺翔持相同观点的厂商并不在少数,并且已经开始采取行动。

特斯拉又造风口了

从主机厂来看,蔚来、小鹏汽车、理想汽车、小米汽车、极越等主机厂纷纷宣布加大端到端的研发力度。

蔚来智能驾驶研发副总裁任少卿在此前媒体采访中提到,蔚来的端到端智驾方案是将感知模型与规控模型合并,实现信息无损传递。据任少卿透露,2023年中,蔚来开始探索机器人世界模型,目前已有阶段性成果。此外,在4月未来智能驾驶发布会上,蔚来公开了端云算力规模,蔚来23万台车的端云算力总规模达230.29 EOPS。据悉,端到端方案也将在2024年内发布。

作为特斯拉最忠实的信徒,小鹏汽车也在2024北京车展上面秀了一波“软实力”,公开发布了AI天玑系统。在小鹏汽车的AI天玑系统中,XPlanner是引入基于神经网络的规划控制大模型,从图像数据感知输入到行驶路劲的规划控制,比人类手写规则的代码更加智能、泛化能力更强。

“以前所有L3、L4级别的自动驾驶都是基于规则,但即使是10万行代码能发挥的规则能力也只有55%-60%。”何小鹏告诉亿欧汽车等在场媒体,“采用神经网络虽然一开始效果并不显著,但是准确性和安全性会实现跃升式发展。”

亿欧汽车获悉,从小鹏X9开始,小鹏汽车发布的车型将升级搭载全新的端到端大模型。从5月开始,小鹏汽车会进入到一个超快周期的软件和AI升级,每两个月左右会训练最新大模型能力。

2023年,理想推送AD Max3.0,其整体框架已经具备端到端的理念,但距离完整的端到端尚有一定差距。此前有媒体报道,理想汽车的新模型将在今年上半年上线,为了能顺利推进,理想汽车正在大力招聘业内智驾人才。

雷军也对外宣称,小米汽车在智驾领域实现了端到端大模型技术。

极越CEO夏一平在2023年就对外宣布:“极越正在做端到端的模型,极越01也会焕然一新,车上的所有智驾、语音交互会全部升级到大模型。”

此外,哪吒汽车也宣布与商汤绝影积极探索多模态智能交互以及AIGC等前沿大模型领域的量产合作。

供应商各自发力

除了主机厂,不少供应商们也在端到端方案上发力。

前文提到的毫末智行就是从2022年开始端到端的自动驾驶以及自动驾驶大模型的探索。

毫末智行的自动驾驶方案是将端到端的大模型进行拆分,分为两个阶段,一个阶段解决感知问题(看懂世界),一个阶段解决认知问题(驾驶决策)。同时,毫末在端到端自动驾驶中又引入了大语言模型(LLM),通过感知大模型识别万物后,将这些信息输入LLM,通过LLM来提取世界知识,并作为辅助特征来指导驾驶决策。如下图所示。

据贺翔介绍,这个系统极为复杂,算力消耗非常大,目前还只能在云端运行,未来几年将加快向车端的落地。

特斯拉又造风口了
毫末智行自动驾驶方案 / 图源官方

同样是在2022年,地平线也提出了自动驾驶感知端到端算法Sparse4D,2023年上海车展上,地平线推出了专为大参数量Transformer、大规模交互式博弈而设计的新一代BPU智能计算架构。

到了2024北京车展期间,地平线发布了基于征程6旗舰版开发的SuperDrive全场景智能驾驶解决方案。按照地平线的介绍,这个方案是基于三网合一的端到端感知和数据驱动的交互博弈来共同向更“拟人”的智能驾驶系统进发。

特斯拉又造风口了
元戎启行自动驾驶发展路径 / 图源官方

去年8月,元戎启行已经运用端到端模型完成了道路测试。到了2024年3月17日,元戎启行正式宣布已经成功将端到端模型适配到量产车上,该批量产车将于今年投入消费者市场。

同时,元戎启行宣布已与英伟达达成合作,将于2025年采用英伟达的DRIVE Thor芯片适配公司的端到端智能驾驶模型。

在2024年北京车展上,元戎启行正式对外展示了即将量产的高阶智驾平台DeepRoute IO(下称“IO平台”),并展出了首款基于IO平台的解决方案,方案采用NVIDIA DRIVE Orin-X系统级芯片,200+TOPS算力,1颗固态激光雷达,11颗摄像头。据透露,基于此方案,元戎启行已与国内某头部车企展开量产合作,数款合作车型将于2024年陆续推向消费者市场。

特斯拉又造风口了
商汤绝影UniAD / 图源官方

2024年北京车展上,商汤绝影首次展示了其量产端到端自动驾驶解决方案UniAD(Unified Autonoumous Driving)。

据悉,搭载UniAD端到端自动驾驶解决方案的车辆仅凭摄像头的视觉感知,无需高精地图,通过数据学习和驱动就可以像人一样观察并理解外部环境,然后基于足够丰富的感知信息,UniAD能够自己思考并作出决策,能够在各种高难度的城市复杂驾驶场景和无中线的乡村道路场景,做到像人一样开车。同时,在本次车展上,商汤绝影还介绍了下一代自动驾驶大模型DriveAGI,其将推动自动驾驶从数据驱动向认知驱动的跃迁。

特斯拉又造风口了
百度Apollo端到端方案

此外,华为在上个月发布了全新智能汽车解决方案品牌——华为乾崑,并带来全新升级的乾崑3.0、乾崑车控等解决方案。Momenta对外声称将在2025年前完成端到端规划和完全端到端自动驾驶。地平线机器人也在端到端领域有所布局。5月15日,百度Apollo发布了支持L4级自动驾驶的大模型Apollo ADFM(Autonomous Driving Foundation Model)。轻舟智航联合创始人兼CEO于骞也对外宣布“轻舟的AI大模型也将得益于大规模量产的赋能,通过高效的数据闭环,加速迈向端到端,拿到智驾竞争下半场的入场券。”

 困难重重,头部效应集聚

从前文罗列的布局端到端自动驾驶的厂商来看,每家提出的方案不太一致,发展进度不一样,对端到端定义都不尽相同,与特斯拉FSD相比也存在一定差距。

有些厂商朝着感知、决策、规划等一体化方向发展,有些厂商选择率先实现某一模块的端到端;有些厂商端到端模型已经完成道路测试,有些厂商的端到端方案依旧在云端进行模拟……

虽然都在宣传推进端到端自动驾驶方案,但是在元戎启行CEO周光看来“高阶智驾的竞速才刚刚开始,如果让他列供应商名单,包括元戎在内,国内只有三家。”

出现进度、道路选择等情况不一而足很大原因是,目前端到端自动驾驶方案仍处在探索阶段,并且研发难度极大。

摆在国内厂商面前亟待解决的就是端到端训练的数据难题。

马斯克在去年的财报会上曾提到数据在自动驾驶方面的重要性,他说:“用100万个视频case训练,勉强够用;200万个,稍好一些;300万个,就会感到Wow;到了1000万个,就变得难以置信了。”

截至去年,特斯拉已经分析了从特斯拉客户的汽车中收集的 1000 万个视频片段(clips),他们判断完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的clips才能正常工作。

然而对于国内厂商来说,数据的采集和提取存在着困难。

早年,自动驾驶厂商们往往依赖采集车采集数据,但是这种数据往往低质量、分布有偏,难以进行大规模端到端训练。随着量产车规模化落地,厂商们又开始转向采用量产车影子模式采取数据,但是却面临着数据有效性和数据规模性平衡的问题。如果采集泛化信息,则有可能面临大量垃圾数据的问题;如果采集策略过于严格,则有可能丢失有价值的数据。如何定义数据质量和处理数据同样也是国内厂商需要解决的难题。

“毫不夸张地说,数据会占据端到端自动驾驶开发中80%以上的研发成本。”贺翔指出。

除此之外,在美国多轮制裁下,中国大部分企业还面临算力难题,拥有超过1000张A100的企业寥寥无几。而当前特斯拉拥有近10万张A100,位居全球top5,预计到2024年年底会拥有100EFlops的算力。

算法难题、验证难题、可解释难题以及上车难题通通摆在了国内厂商面前。

“一开始就上线端到端模型是非常困难的。能够把端到端模型做好的企业一定需要非常好的第二代,甚至第一代的自动驾驶堆栈。”英伟达全球副总裁吴新宙曾如此评价端到端自动驾驶方案。

换句话说,只有有足够资金和资源的头部企业和头部供应商才能抢先一步探索出端到端自动驾驶解法。