首页 > 进口汽车 >

如何让自动驾驶更像人类老司机，毫末和特斯拉给出“求同存异”新解法

发表于: 2022-10-28 15:40:57 来源：搜狐汽车

在自动驾驶竞争迎来下半场后，基于软硬件驱动的感知能力已趋于成熟，而基于数据驱动的认知能力，则成为了各大自动驾驶企业角力的重点。

与感知系统不同，认知系统在自动驾驶中扮演着承上启下的关键角色。其接收来自感知系统的结果，并将其转化为规控策略，最终以转向、制动、提速等动作为结果输出。

(资料图片仅供参考)

对人类驾驶而言，想要学会开车并不难，但要想学会把车开好，则需要长时间的学习、锻炼、甚至试错，以此来练就一套安全、舒适、高效的驾驶风格。

而对自动驾驶而言，想要像老练的人类司机一样驾驶，自然也需要一套更加拟人的认知系统，这同样需要自动驾驶企业为之不断付出。

在所有自动驾驶企业中，属特斯拉的自动驾驶最为瞩目。FSD仅依靠摄像头感知，就能实现接近零接管的全场景高阶辅助驾驶，并且无需高精地图辅助。

而在国内，被众多媒体称为“中国版特斯拉”的毫末智行，也依靠独特的“重感知”方案走到了行业前列，也就是城市NOH只需要标精地图，就能实现城市域高阶辅助驾驶。

为此，毫末还提出，一个以大规模数据驱动为标志的自动驾驶3.0时代正在到来。

作为渐进式路线的代表，特斯拉与毫末以数据驱动为方向，为行业发展提供了方向。其中如何借助认知能力，将感知优势转化为更拟人的规控策略，则成为自动驾驶技术突破的关键。

在不久前两家先后发布的AI DAY上，特斯拉与毫末向我们展示了他们对认知系统的理解，而他们的解决方案，也展现出了许多“求同存异”的特点。

特斯拉：以强算法、大算力能力，实时输出规控策略

早在2021 TESLA AI DAY上，特斯拉就介绍了其规控策略：基于感知结果，首先推导可行的轨迹空间，然后快速筛选并生成最优的行驶路径。

但现实环境是复杂多变的，这又要求规划系统能够实时给到规控策略，否则将因为计算延迟带来安全隐患。

基于数据驱动逻辑，特斯拉提出使用大数据与大模型，使用标注过的真实及仿真数据对Transformer大模型进行预训练，由此得到的算法模型能够更高效输出规控策略。

此外，特斯拉也通过推出与算法高度拟合的自研算力平台，保证大数据与大模型能够高效运转，降低因算力、拟合能力不足导致的延迟。

这套规控逻辑，在2022 TESLA AI DAY上，被特斯拉以无保护左转的场景进行了展示：此时的特斯拉正在左转，其左侧有过马路的行人，而右侧有正在直行的车辆。

无保护左转是行业公认的认知难题。对此，特斯拉首先通过感知结果，预测行人、车辆等物体的轨迹，然后再结合自己的轨迹，规划最佳通行方式。

这一过程既要保证行人与车辆的安全，又要保证自己能够高效的通过，并且最重要的是，规控策略要足够拟人，保证车内乘客的舒适感，非常考验认知能力。

但行人与车辆是能被感知到的，在被建筑物、其它车辆遮挡的死角，可能还存在着其它无法被感知到的物体，如果不做以应对，它们将对自动驾驶带来极大的干扰。

最典型的场景莫过于“鬼探头”。由于行人被路边障碍物遮挡，哪怕是经验丰富的老司机，也难免出现反应不及时的情况，导致事故发生。

为应对这些感知死角，特斯拉引入了假象动态物体。首先，特斯拉会假设这些死角里存在动态物体，并会与自己发生冲突，然后再基于这一点规划更安全的行驶轨迹。

这一方面进一步提升了特斯拉的认知能力，另一方面又对感知系统带来了一定压力，因为现有的BEV网络对物体的检测还很粗糙，并且还停留在2D阶段。

于是特斯拉又引入了Occupancy网络，不仅能为感知系统建立更加稠密的3D点云信息，还能将所有感知到的物体进行标注，将其重建为一个完全计算机语义的世界。

此外，特斯拉还对车道线识别进行了3D化升级，由此获得了能够识别车道起伏的能力，搭配SD标精地图提供的简单车道线信息，认知系统就能以此为基础，规划出更安全、更高效、更舒适的路线。

值得一提的是，为了降低因车道线磨损、重叠、中断带来的感知信息缺失，特斯拉还引入了NLP领域的Vector Lane模型，这可以让认知系统基于现有的感知信息建立车道线的拓扑关系。

可以看出，特斯拉理想中的认知系统，是拥有实时且精准的规控能力的，这非常类似于人类驾驶时的思维逻辑；而为了将这一能力实现，特斯拉也将其算法和大模型算力及工程实现能力发挥到了极致，这种成功对很多自动驾驶企业来说，是很难复制的。

毫末智行：引入大规模认知场景库，模拟人类老司机

在建立认知能力方面，毫末智行有很多方面都与特斯拉相似，例如二者都基于数据驱动逻辑，认为在保证安全的底线上，自动驾驶应从数据中学到更舒适、高效的量化标准。

此外，二者也都使用了大数据+大模型的组合，通过引入Transformer大模型，并自研自动驾驶计算平台、成立超算中心，掌握高效率标注、训练海量数据的能力。

但不同之处在于，特斯拉倾向以更稠密的感知信息去获取所有参与者的数据信息，以此作为参考给出规控策略；毫末则更希望能让自动驾驶深度理解参与者的意图。

举一个类似于“鬼探头”的例子，当车辆前方的盲区里突然冒出来一个足球时，驾驶者往往都会立刻减速，原因并不是害怕足球，而是足球后面，往往跟着一个小孩。

同样的，当前方处在左转车道的车辆突然开始右转时，他也有可能并不是真的要右转，而是想要左转掉头，因为车辆的转弯半径和道路宽度并不支持他在左转车道“一把过”。

如果仅依靠感知信息分析，以上这些交通参与者的行为轨迹都是无法预测的——即使违反交通法规的确实是他们，但作为自动驾驶，我们依旧要为自己的安全负责。

对此，毫末智行开始着手为自动驾驶赋予能够理解人类的能力，而具体的实现方式，就是在掌握端到端模拟学习的基础上，引入NLP领域中的Prompt模型。

首先，毫末能够对真实车主的驾驶数据进行标注，通过筛选优质数据不断训练认知模型，使其输出的规控策略能够更加拟人化。

在此基础上，借助对Prompt模型的语义分析能力，毫末能够对人类驾驶数据进行分析，去进一步理解驾驶者当时决定转向、制动、加速等动作的原因。

而基于这一点，毫末就能在掌握驾驶者驾驶习惯的同时，模拟其思维逻辑，在后者开启自动驾驶后，输出更符合其驾驶风格的规控策略。

这一能力为认知系统带来的提升不仅是根本性的，由于基于Prompt模型的输出是可以解释的，这相当于额外削弱了自动驾驶的“黑盒”属性。

在Prompt模型的帮助下，毫末得以将大数据转化为输出更安全、舒适、高效的规控策略能力，但随着数据库的膨胀，有价值的新数据又很容易被其稀释，导致迭代停滞。

这又驱使毫末开始建立增量式学习训练平台。在训练过程中，毫末会只抽取部分存量数据，加上新数据组合混合数据集，并要求输出保持尽量一致，对新数据的拟合尽量好。

另外，为了提升认知能力，毫末也和特斯拉一样，同步提升感知能力。具体来看，毫末会首先借助对激光雷达点云的成熟运用，进一步提升稠密度，模拟Occupancy网络的效果。

此外，毫末也在尝试让感知系统拟人化，具体在如何理解诸如前车的转向、刹车、倒车灯等交互信息，因为这些都是人类驾驶时输出规控策略的主要参考信息，而在此之前，自动驾驶只能基于其它交通参与者的速度、状态进行判断，这并不拟人。

类似感知系统的数据库，毫末也将为认知系统打造一套认知场景库，其中首当其冲的就是加入对车辆信号灯状态的理解。如此认知系统就可以在处理诸如前车减速、周围车辆切入等场景中，带来更安全、舒适的规控策略。

可以看出，毫末智行理想中的认知系统，是具备理解并模拟人类思维逻辑能力的，因为“驾驶”这一概念终究是建立在人类认知基础上的，而借助NLP、多模态融合感知、Transformer等成熟运用，不失为在提升认知能力前提下实现“降本增效”的最优解。

“求同存异”，自动驾驶认知路线的行业范式

通过对自身自动驾驶技术能力的高度整合，特斯拉与毫末分别为化解自动驾驶认知难题，提出了自己的认知解决方案。

特斯拉在认知领域的优势是极为巨大的，这不仅表现为对Occupancy网络、假象动态物体、NLP的运用，为了实现近乎实时的规控输出能力，还不惜自研算力平台，并保证与软件的高度拟合，其中需要实现的数据积累和算法能力壁垒自然是奇高的。

作为后来者，毫末智行虽与特斯拉存在一定差距，但数据驱动的路线是与特斯拉一脉相通的；另外，毫末也借助对大数据、大模型、多模态融合感知、自然语义识别等成熟技术的运用，建立了一套能够不断优化升级的认知智能系统。

此外，二者也都不约而同的将NLP带入到了认知系统中，即使用法并不相同，但这一就能够为自动驾驶技术的后续发展提供参考。而作为当下自动驾驶领域的头部企业，特斯拉与毫末在认知领域的探索，可以成为自动驾驶行业的技术新范式。

关键词：认知系统认知能力数据驱动

如何让自动驾驶更像人类老司机，毫末和特斯拉给出“求同存异”新解法

推荐阅读

热门标签