iMAP — Implicit Mapping and Positioning


  • Description:iMAP 论文笔记 (读 arXiv 全文后所写) — 首个用单个 MLP 做场景表征的实时 RGB-D 神经 SLAM;联合优化网络 + 位姿、信息引导采样、信息增益选关键帧
  • Paper:Sucar, E., Liu, S., Ortiz, J., & Davison, A. J. (2021). iMAP: Implicit Mapping and Positioning in Real-Time. ICCV. arXiv:2103.12352
  • K2E-B ID:[K2E-B-G5-1]
  • Max3 PDF[K2E] SLAM/[K2E-B-G] Geometry & Rendering/[K2E-B-G5] NeRF SLAM/[K2E-B-G5-1][2021] iMAP Implicit Mapping and Positioning in Real-Time.pdf
  • Notion ID:(待创建)
  • Created:2024-03-31
  • Updated:2026-06-02
  • License转载欢迎 — 请署名 Yu Zhang 并链回 yuzhang.io 原文

Table of Contents


1. iMAP 概述

iMAP (Sucar et al. 2021, ICCV, 帝国理工 Davison 组) — 首个用单个 MLP 作为唯一场景表征的实时 RGB-D 神经 SLAM。把 NeRF 式的隐式表示在线训练 + 用于跟踪。

核心:传统稠密 SLAM 用占用栅格 / TSDF 存场景,内存大。iMAP 用一个 MLP 表示整个场景的体密度 (volume density) + 颜色 → room-scale 只需 1 MB 参数 (比 TSDF 省 60×),还能平滑填补未观测区域

NeRF 表示基础见 NeRF 那篇;本笔记是 iMAP 这篇论文 (读 arXiv 全文)。

2. MLP 场景表征

单个 MLP $F_\theta: \mathbf{p} \to (\mathbf{c}, \rho)$:

  • 输入 3D 点 $\mathbf{p}$ (经 Gaussian/Fourier 位置嵌入,帮 MLP 学高频)
  • 输出 颜色 $\mathbf{c}$ + 体密度 $\rho$

与 NeRF 不同:iMAP 在线训练,无预训练,边跑边学;且无视角方向输入 (室内 RGB-D,简化)。

3. 渲染

沿光线采样点,体渲染深度 + 颜色 (类似 NeRF,见 NeRF §3)。每个采样点权重 $w_i$ 来自占用累积,渲染深度:

$$ \hat{D} = \sum_i w_i d_i, \quad \hat{C} = \sum_i w_i \mathbf{c}_i $$

还算深度方差 → 作归一化因子放在分母 ($\div\sqrt{\hat{D}_{var}}$),对不确定区域 (深度方差大,如物体边缘) 降低 loss 权重 (鲁棒于遮挡边缘)。

4. 联合优化 (跟踪 + 建图)

光度 + 几何 (深度) loss 联合优化网络 $\theta$ + 关键帧位姿 $T_i$:

$$ \mathcal{L} = \mathcal{L}{\text{photo}} + \lambda \mathcal{L}{\text{geo}} $$

  • $\mathcal{L}_{\text{photo}}$ — 渲染颜色 vs RGB 观测
  • $\mathcal{L}_{\text{geo}}$ — 渲染深度 vs 深度图观测 (按深度方差归一化,方差大的区域降权)

5. 信息引导采样

不渲染所有像素 (太慢)。iMAP 动态信息引导采样

  • 图像分成区域 (如 8×8)
  • 每区域按重建 loss 高低分配采样数 (loss 高的区域多采)
  • 把算力集中在信息量大的像素 → 加速

6. 关键帧选择

信息增益 (information gain) 选关键帧:新帧若有显著未观测区域 (归一化深度误差超阈值) → 加入关键帧集。

room-scale 场景只需 10-20 个关键帧

7. 双进程实时系统

多进程并行 (类似 PTAM/ORB-SLAM 的跟踪/建图分离):

  • 跟踪 (~10 Hz) — 固定网络,只优化当前帧位姿
  • 建图 (2 Hz) — 联合优化网络权重 + 关键帧位姿

8. 贡献与局限

  • 首个 MLP-only 实时神经 SLAM — 开创 NeRF-SLAM 方向
  • 极省内存 (1 MB)、平滑补全未观测区
  • Replica 上完整度 (completion ratio) 平均比 TSDF fusion 高 4% (79.06% vs 75.09%;office-3 高达 11%)
  • 局限 (后续 NICE-SLAM 解决,见 NICE-SLAM 那篇):
    • 单 MLP 容量有限 → 大场景灾难性遗忘 (catastrophic forgetting)
    • 重建过平滑,丢高频细节
    • 每帧全局更新效率低

References

  • Sucar, E., Liu, S., Ortiz, J., & Davison, A. J. (2021). iMAP: Implicit Mapping and Positioning in Real-Time. ICCV. arXiv:2103.12352 — 论文 (本笔记读 arXiv 全文整理)
  • 项目页: edgarsucar.github.io/iMAP
  • NeRF 表示见 NeRF;改进版见 NICE-SLAM (G5-2)