未经许可,禁止转载;以下图表均为原创,不做任何解释。
自动驾驶是目前人工智能领域最受关注、最具挑战性和影响力的产业方向,是推动全球汽车产业变革最重要的技术力量。传统的自动驾驶算法体系将自动驾驶分为感知、决策、规划和控制,以子模块的方式完成自动驾驶任务。相比之下,人类驾驶过程直接根据场景信息输出控制信号。端到端自动驾驶就是基于这种思路,通过端到端网络直接输出车辆轨迹规划或控制信号。传统模块化方案的优点是耦合度低、可解释性高,但往往会失去最优性。与传统方法相比,
传统自动驾驶方案与端到端自动驾驶方案对比
端到端自动驾驶学术发展脉络图(1988-2023)
如上图所示,随着学术界的研究和产业界的探索,融合感知和决策的端到端自动驾驶越来越受到关注。同时我们也注意到,在最新一期的CVPR 2022自动驾驶专业论坛上,来自UC、多伦多大学、英国自动驾驶初创公司Wayve、Tesla、等高校和企业的研究人员进行了分析和讨论。详见:论坛评论 | CVPR 2022自动驾驶论坛大佬们都关心什么?- 知乎()
WAD 扬声器
通过本文,上海人工智能实验室自动驾驶团队将介绍自动驾驶感知与决策融合相关的预研及项目实施进展。预研工作包括大规模数据预训练、模型设计(解码器表示设计)、目标驱动的集成框架设计。在项目实施方面,将介绍其复制的相关工作。
本文主要内容概述——端到端自动驾驶预研:大规模数据预训练
除了自动驾驶汽车收集的数据,现实生活中还有大量普通车辆的行驶数据,比如行车记录仪拍摄的行车片段。那么这些数据是否可以用来训练感知决策的集成模型呢?
是的。通用视觉已经有丰富的大数据自监督预训练方法,需要解决的是感知决策一体化模型中的迁移。与一般视觉不同的是,这部分数据包含了很多与驾驶决策无关的信息(如下图,不需要关注所有背景物体、天气变化、光照变化等)。 ). 对于驾驶任务,下一步去哪里,信号灯是否允许通过,这些信息才是真正需要关注的。那么如何让感知与决策融合算法自动过滤无关信息,聚焦与驾驶相关的信息呢?
PPGeo研究动机:基于自监督几何建模的自动驾驶策略预训练方法
加州大学洛杉矶分校周博雷团队提出-(ACO),利用在线数据标注虚假标签,重点关注转向信息在特征提取骨干网络中的表示,通过数据预训练提升网络性能已得到得到业界的广泛认可。
另外,在最近的ICLR 2023双盲评审网站上,我们还发现了一个有趣的工作:Pre- for via Self- (PPGeo),作者提出了一个自监督学习框架,在大规模网络驾驶上进行预训练数据 ,为感知决策模型提供先验知识,显着提高感知决策模型的性能。
PPGeo 自监督学习框架
具体来说,PPGeo分为两个阶段。在第一阶段,姿势和深度预测是从时间图像生成的;在第二阶段,使用第一阶段训练的深度网络和姿势网络来监督单图像输入的视觉编码器。,完成视觉编码器的预训练过程。PPGeo 调整预训练的视觉编码器以适应不同的下游任务。实验表明,基于PPGeo的预训练模型比其他预训练模型和直接端到端训练模型具有更好的驾驶能力,能够在无关物体干扰、特定信号引导、和环境变化。结果。
预研:加强解码器的表达能力
感知-认知整合模型往往采用-架构,但以往的感知-决策整合模型都是“强调感知-光决策”。该团队2022年发表的作品,-(TCP)对解码器部分进行了特殊设计。仅使用单个单目相机作为输入自动驾驶仪设计,获得CARLA第一名(截至2022.6.24),比第二名高出15分,大大降低了出现各种碰撞、偏航等问题的概率,远超其他使用多传感器输入(多摄像头和激光雷达)的方法。值得注意的是,目前榜单中排名靠前的方法使用的数据量是TCP方案的数十倍,取得了约1个百分点的提升。
CARLA:CARLA的成立是为了评估自动算法在真实环境中的表现,吸引了来自UT、Valeo等自动驾驶的众多从业者和研究者参与
TCP在CARLA AD上的排名(截至2022.6.24)
TCP解决的主要问题是输出轨迹加PID控制的方法不能准确稳定地控制车辆,而直接控制输出的方法缺乏对未来时间的考虑。
没错,想必读者应该已经猜到,TCP是通过互相学习的方式来弥补自己的不足,采用多任务学习(Multi-tasks)的方式来专门设计解码器的。TCP包括轨迹和控制两个分支。轨迹分支教会控制分支如何“预见未来”,控制分支负责在PID不稳定时接管车辆。下面展示的视频是TCP在CARLA中的表现。可见,TCP能够准确输出相应的轨迹和控制信号。
CARLA中TCP的测试片段
对TCP感兴趣的同学可以关注即将召开的机器学习和计算神经科学领域的顶级国际会议 (2022)。团队成员吴鹏浩将线下参与2022大会,并将于北京时间12月3日23:35在ML4AD上发布相关演讲。欢迎大家现场交流!
预研:目标驱动感知与决策的一体化设计
纯视觉方案具有信息丰富、成本低的优点。同时,以往的端到端方案通常只使用控制信号进行监督。于是我们想到:如果对纯视觉自动驾驶算法的每个模块都进行精巧的设计和端到端的训练,那么在感知、规划、控制上能达到什么样的性能水平?基于此,团队提出了ST-P3:End-to-end-based via-。
ST-P3工作结构框图
ST-P3 是一种基于视觉的可解释端到端系统,可改进感知、预测和规划的特征学习。多个时刻的环视摄像头图像依次经过感知、预测、规划模块,输出最终的规??划路径。其中,感知和预测模块的输出可以通过获取不同类型的场景语义信息来增强可解释性。我们还通过每个模块中的特殊设计来增强对时空特征的学习。在端到端的集成训练方式下,三个模块的性能在数据集上的感知、预测和开环规划效果超越了相应的方法实现了SOTA,在CARLA上的测试也超越了经典的multi - 基于模型的状态方法。
登陆计划:
促销展示
业界也有相应的端到端自动驾驶解决方案。是一套针对高速驾驶场景,面向L2级辅助驾驶功能(ACC、LKA、DMS等)的开源项目,端到端模型已应用于量产。使用简单的多任务学习模型,前后两帧前视摄像头作为输入,直接输出预测轨迹。将预测的轨迹和雷达信号结合起来,发送给MPC控制器,得到最终的控制信号。
基于此,自动驾驶课题组对模型进行复现,以多任务学习的形式同时预测车道线、车辆状态等信息,取得了很好的效果。相关资料开源,欢迎访问。
虽然近几年端到端自动驾驶越来越受到关注,但这个领域仍然存在很多挑战,比如如何公平地比较Carla列表上的各种方法,训练数据是否统一,如何交互与世界模型、海量数据驱动的自监督训练能否帮助其他认知任务等自动驾驶仪设计,希望通过这篇文章,能够鼓励更多的朋友投身于端到端的自动驾驶研究!我们期待与学术界分享前沿思想、交流探讨,不断探索自动驾驶相关研究在现实世界中的应用潜力。更多详情请参考:/和团队知乎公众号://。