BEVFormer
BEVFormer
项目简介
[ECCV 2022] This is the official implementation of BEVFormer, a camera-only framework for autonomous driving perception,
BEVFormer 是一个基于纯视觉摄像头实现鸟瞰图(BEV)感知的开源框架,由 OpenDriveLab 提出,发表于 ECCV 2022。该项目核心解决了自动驾驶场景中,仅依靠多路摄像头输入,如何高效、准确地构建三维空间感知表征的问题。传统方法往往难以同时融合多视角空间特征与时间序列信息,而 BEVFormer 通过设计时空 Transformer 架构,利用预定义的网格状 BEV 查询,在空间上通过空间交叉注意力机制从不同摄像头的感兴趣区域提取特征,在时间上通过时间自注意力机制循环融合历史 BEV 信息,从而统一了时空维度的特征学习。该框架在 nuScenes 测试集上以纯视觉方案取得了 56.9% 的 NDS 指标,大幅超越此前最优方法,甚至达到了与基于激光雷达方案相当的性能。其升级版本 BEVFormer++ 更是在 Waymo 开放数据集 3D 纯视觉检测挑战赛中夺得第一名。技术栈方面,项目基于 PyTorch 和 MMDetection3D 构建,提供了从 ResNet-50 到 ResNet-101-DCN 等多种骨干网络的预训练模型,并支持 tiny、small、base 等不同显存需求的配置,便于研究者在不同硬件条件下进行复现与部署。BEVFormer 适用于自动驾驶中的 3D 目标检测、多传感器融合感知、以及需要实时生成统一 BEV 表征的各类下游任务,是目前纯视觉感知领域的重要基线。
标签
项目特点
技术规格
| 框架 | |
|---|---|
| 骨干网络 | |
| 输入 | |
| 输出 | |
| 评价指标 | |
| 训练数据 | |
| 显存需求 | |
| 训练周期 | |
| 论文发表 |
项目资源
搜索资源
物料清单 (BOM)
| 物料名称 | 数量 | 参考价格 | 备注 |
|---|---|---|---|
| Python 3.8+ | 1 | — | 开发环境 |
| PyTorch 1.9+ | 1 | — | 深度学习框架 |
| MMDetection3D | 1 | — | 3D检测工具包 |
| GPU(如 NVIDIA A100/RTX 3090) | 1 | — | 训练需要大显存 |
| nuScenes 数据集 | 1 | — | 官方完整版 |
| 预训练权重(R50/R101-DCN) | 1 | — | 可选下载 |
所需工具
| 工具 | 用途 | 是否必需 |
|---|---|---|
| GPU(≥6.5GB显存) | 模型训练与推理 | ✅ 是 |
| Python 开发环境 | 运行代码 | ✅ 是 |
| Git | 版本控制与代码下载 | ✅ 是 |
| 数据下载工具(wget/curl) | 下载数据集和模型 | ✅ 是 |
能力画像
项目图库
视频
161392594-fc0082f7-5c37-4919-830a-2dd423c1d025.mp4
BV12t4y1t7Lq