首页学术会议论文辅导出版无忧

小鹏汽车联合北大发新论文：教AI开车学会“抓重点”

研发家 | 2025-12-30 0

就在最近，人工智能领域的国际顶级会议 AAAI 2026 选中了小鹏汽车和北京大学的一篇技术论文。这次小鹏解决了一个行业难题：怎么让车上的电脑跑大模型时，反应速度快得像老司机一样。

给大模型“瘦身”：扔掉废话，留下关键

现在的自动驾驶普遍用上了一种大模型技术（专业术语叫 VLA 模型）。它看路的时候，会把车上 6个摄像头 拍到的画面切成成千上万个小碎片，专业上叫 Token（视觉词元）。你可以把它理解为 AI 眼里的“视觉单词”。碎片越多，电脑计算起来就越累，车子的反应可能就会变慢。

为了解决这个问题，小鹏提出了一个叫 FastDriveVLA 的框架，核心技术叫 “剪枝”。简单说，剪枝就是像修剪树枝一样，把画面里没用的部分剪掉：

像老司机一样看路：老司机开车时，盯着的是行人、车子、红绿灯和路障（这些叫前景信息），而路边的树木、远处的云朵（这些叫背景）其实不影响开车。
专门的“过滤器”：他们做了一个叫 ReconPruner 的小工具。它能自动分清什么是必须要看的重点，把无关紧要的杂讯直接过滤掉。它就像个即插即用的插件，不用重新训练整个大模型就能直接上车使用。
用海量图片当教材：为了教 AI 识别重点，团队准备了一个包含 24.1万对图片 的大账本（nuScenes-FG 数据集）。这些图片都有专门的标注，告诉 AI 哪些是真正的障碍物，哪些是不用管的背景。

不仅算得快，开车还更稳了

这套“抓重点”的方法效果非常明显，尤其是在处理速度上有了质的飞跃：

大幅减轻电脑负担：如果把没用的碎片减掉四分之三，电脑的计算量（FLOPs，即每秒执行的运算次数）直接减少了接近 7.5倍。
缩短“反应时间”：在电脑处理任务时，有一个衡量速度的指标叫 CUDA 延迟。这代表电脑从接收到摄像头画面，到真正算出结果需要等多久。用了这套技术，电脑算出结果前的“准备时间”（预填充）快了 3.7倍，正式“出结果”的时间（解码）快了 1.3倍。
水平不降反升：即便剪掉了四分之一的数据，AI 开车的准确性不仅没降，碰撞率和认路指标甚至比以前表现还要好。这是因为 AI 不再被那些乱七八糟的干扰信息带偏了。