MapTR - 端到端矢量化高清地图构建框架 MapTR

⭐⭐⭐☆☆ (3/5) 🧩 软硬件结合 已发布
hustvl 964 Stars 未知 BOM 完整度: /5 教程完整度: /5

项目简介

[ICLR'23 Spotlight & ECCV'24 & IJCV'24] MapTR: Structured Modeling and Learning for Online Vectorized HD Map Constructio


MapTR是一个面向自动驾驶场景的在线矢量化高精地图构建框架,由华中科技大学与地平线联合研发,相关论文已被ICLR 2023接收为Spotlight,并进一步扩展至IJCV 2024。该项目核心解决的是传统高精地图构建依赖离线标注、更新成本高且难以实时适应动态环境的问题。MapTR提出了一种端到端的Transformer架构,能够直接从多视角车载摄像头图像中在线生成矢量化地图元素,包括车道线、人行横道、道路边界等。其关键技术在于统一置换等价建模方法,将地图元素视为具有一组等价排列的点集,从而准确描述任意形状的地图元素并稳定学习过程。同时,项目设计了层次化查询嵌入方案来灵活编码结构化地图信息,并采用层次化二分匹配进行地图元素学习。为了加速收敛,MapTR还引入了辅助的一对多匹配和密集监督机制。在技术栈方面,项目基于PyTorch和MMDetection3D框架实现,支持ResNet-18、ResNet-50等多种骨干网络,并兼容BEVFormer、BEVFusion等多种BEV编码器。实验结果表明,MapTR在nuScenes和Argoverse2数据集上均达到了当时最先进的性能,其中MapTRv2版本在ResNet-50骨干网络下mAP达到68.7%,推理速度可达14.1 FPS。该框架适用于需要实时高精地图更新的自动驾驶系统,尤其适合城市复杂道路场景下的路径规划和决策模块,能够有效降低对预采集高精地图的依赖,提升系统的泛化能力和鲁棒性。

标签

项目特点

**端到端框架**:直接从多视角图像输入生成矢量化高清地图,无需中间步骤
**排列等价建模**:将地图元素建模为点集,支持任意形状的地图元素
**层次化查询嵌入**:灵活编码结构化地图信息,实现高效学习
**实时推理速度**:在RTX3090上可达35 FPS(MapTR-nano)
**多模态支持**:支持相机和LiDAR融合输入
**多种BEV编码器**:支持GKT、BEVFormer、BEVFusion等多种BEV编码器
**时间建模**:支持时序信息融合,提升地图构建稳定性
**中心线检测**:MapTRv2引入中心线语义,支持路径级建模

技术规格

输入
输出
骨干网络
BEV编码器
训练数据集
推理速度
硬件要求
框架
论文

项目资源

物料清单 (BOM)

物料名称 数量 参考价格 备注
NVIDIA RTX 3090 GPU 8 训练所需,推理单卡即可
高性能CPU 1 数据加载和处理
大容量内存 ≥64GB 训练时数据加载
Ubuntu 20.04+ 1 推荐操作系统
Python 3.8+ 1 编程语言
PyTorch 1.10+ 1 深度学习框架
MMDetection3D 1 3D检测工具箱
nuScenes数据集 1 主要训练数据集
Argoverse2数据集 1 可选训练数据集

所需工具

工具用途是否必需
NVIDIA GPU (RTX 3090+) 模型训练和推理 ✅ 是
CUDA + cuDNN GPU加速 ✅ 是
Docker 环境管理 ▢ 推荐
Git 代码版本管理 ✅ 是
Weights & Biases 实验跟踪 ▢ 推荐

能力画像

记忆与知识检索
1/5
逻辑推演
4/5
表达与交流
1/5
感知与观察
4/5
数理与计算
5/5
动手与操作
1/5
狂热与坚持
3/5
创造与创新
4/5

视频

watch

watch

229679664-0e9ba5e8-bf2c-45e0-abbc-36d840ee5cc9.mp4

所需技能

🔧 **动手能力**:需要配置深度学习环境,安装CUDA、PyTorch等依赖,管理数据集 💻 **编程能力**:需要掌握Python编程,熟悉PyTorch框架,理解Transformer架构和注意力机制 ⚡ **电子电路**:不需要

适用场景

**自动驾驶系统**:为自动驾驶车辆提供实时高清地图构建能力
**机器人导航**:为移动机器人提供环境地图构建
**智能交通系统**:用于交通场景理解和地图更新
**学术研究**:作为端到端地图构建的基准方法,可用于相关研究
**地图标注工具**:基于MapTR的VMA框架可用于自动化地图标注