芯片解密自动驾驶物理世界如何建模
最近的GTC 2025 上小米汽车自动驾驶与机器人部杨奎元,表示“小米在2024年智能驾驶上实现了一年追三代的快速追赶,从基于高精地图模块化架构到去高精地图模块化架构再到端到端架构。” 同时他也介绍了小米在端到端方面的一些实践。所以本文,根据杨奎元在GTC 2025 的演讲内容,探讨端到端算法的物理世界如何建模,也希望探讨下当前智能驾驶端到端到底有几段。
“三层建模”架构的物理世界模型数据观测层Ot作为神经网络的输入层,也就是传感器输入的包含了图像、激光雷达点云以及领航功能所需要的导航信息等。隐式特征层Zt,上一步输入层的信息,通过BEV编码网络得到隐私的特征表达,通过不同的解码器可以分别得到:动态元素,其他交通参与者,其中动态元素在场景中分布较为稀疏局部且不同个体运动状态不同,需要单独维护各自的历史信息,小米智驾使用带有memory的Sparse方案进行建模静态元素,道路标志,设施,障碍物等,静态元素则相反,直接采用Dense方案进行建模。自车的未来轨迹,根据车辆的速度,IMU方位等信息得出自己车辆的运动轨迹。 显示符号层St,就是为了方便人理解以及对接人工规则代码,模型会解码出显示的符号表达,如静态的车道线、斑马线等,动态的行人、车辆等,这些也是监督学习中人工增值标注或者自动化增值标注的表达形式。
有了这“三层建模”这样就形成对当前场景的理解,用于未来的决策规划。不过,这种“三层建模”只是一种粗粒度的划分和表达,每一层内部还可以细化为更多的层。比如图像金字塔中的多层分辨率图像,深度神经网络中不同隐层的特征表示等。最后可能车辆输出的运动轨迹只是充分考虑了动静态信息之后解码生成,最终通过人工设计的cost,如和其他障碍物计算的碰撞cost、和车道线计算的偏离车道cost、横纵向Jerk计算的舒适性cost,用于约束轨迹的合理性。
整个神经网络的训练由人工定义也就是规则定义的最后一层的loss曲度,包含静态和动态的元素和真值之间的差异、自车轨迹模仿廉价轨迹的差异以及人工设计的多个cost,输出运动轨迹来控车。物理世界模型的建模方法设定好了模型架构,那么建模就是打通数据驱动渠道,让模型能够在数据驱动下自动输出真实的需要的结论,形成数据驱动飞轮。三层分别建模的多段式端到端数据观测层典型的输入就是各家常说的多少Clips视频流,但不少corner case或者长尾场景,和感知造环的闭环仿真评测需要采用生成数据训练。目前已经有很多相对成熟的AI技术可以使用,如3DGS重建技术、diffusion auto regression生成技术,典型的工具有open AI的Sara、Deepmind 的 Journey 到英伟达的Cosmos的这些视觉生成大模型。
通过直接拟合原始数据的概率分布加上额外使用逆时针图像隐私特征显示符号等控制条件,可以进行原始信号的生成。当前这些模型目前生成速度较慢主要在云端仿真物理世界。这些生成模型通常也需要使用隐私特征但主要侧重于传感器细节信号的恢复,在理解任务上性能欠佳。于是最近也有些工作开始尝试同时用于生成和理解的隐私特征空间。隐式特征层,在智能驾驶领域目前还没有成熟的基座模型可以用于生成稳定的特征表达。