小鹏汽车联合北大发新论文:教AI开车学会“抓重点”

研发家 | 2025-12-30 0

就在最近,人工智能领域的国际顶级会议 AAAI 2026 选中了小鹏汽车和北京大学的一篇技术论文。这次小鹏解决了一个行业难题:怎么让车上的电脑跑大模型时,反应速度快得像老司机一样。

给大模型“瘦身”:扔掉废话,留下关键

现在的自动驾驶普遍用上了一种大模型技术(专业术语叫 VLA 模型)。它看路的时候,会把车上 6个摄像头 拍到的画面切成成千上万个小碎片,专业上叫 Token(视觉词元)。你可以把它理解为 AI 眼里的“视觉单词”。碎片越多,电脑计算起来就越累,车子的反应可能就会变慢。

为了解决这个问题,小鹏提出了一个叫 FastDriveVLA 的框架,核心技术叫 “剪枝”。简单说,剪枝就是像修剪树枝一样,把画面里没用的部分剪掉:

  • 像老司机一样看路:老司机开车时,盯着的是行人、车子、红绿灯和路障(这些叫前景信息),而路边的树木、远处的云朵(这些叫背景)其实不影响开车。
  • 专门的“过滤器”:他们做了一个叫 ReconPruner 的小工具。它能自动分清什么是必须要看的重点,把无关紧要的杂讯直接过滤掉。它就像个即插即用的插件,不用重新训练整个大模型就能直接上车使用。
  • 用海量图片当教材:为了教 AI 识别重点,团队准备了一个包含 24.1万对图片 的大账本(nuScenes-FG 数据集)。这些图片都有专门的标注,告诉 AI 哪些是真正的障碍物,哪些是不用管的背景。

不仅算得快,开车还更稳了

这套“抓重点”的方法效果非常明显,尤其是在处理速度上有了质的飞跃:

  • 大幅减轻电脑负担:如果把没用的碎片减掉四分之三,电脑的计算量(FLOPs,即每秒执行的运算次数)直接减少了接近 7.5倍
  • 缩短“反应时间”:在电脑处理任务时,有一个衡量速度的指标叫 CUDA 延迟。这代表电脑从接收到摄像头画面,到真正算出结果需要等多久。用了这套技术,电脑算出结果前的“准备时间”(预填充)快了 3.7倍,正式“出结果”的时间(解码)快了 1.3倍
  • 水平不降反升:即便剪掉了四分之一的数据,AI 开车的准确性不仅没降,碰撞率和认路指标甚至比以前表现还要好。这是因为 AI 不再被那些乱七八糟的干扰信息带偏了。

赞一个

分享:
打开微信扫一扫
0
版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
更多服务
招商合作
请您完善以下信息,我们会尽快与您联系!
论文投稿
参加会议
合作办会
期刊合作
论文辅导
科研绘图
论文翻译润色
论文查重
其他
提交
专家招募
个人信息
联系信息
提交
在线客服
商务合作
专家招募
常见问题
手机端
扫描二维码
与学术大咖共探知识边界
出版无忧
投稿无忧
翻译服务
润色服务
自助查重
排版校对
科研绘图