NICER-SLAM


  • Description:NICER-SLAM 论文笔记 (读 arXiv 全文后所写) — NICE-SLAM 的纯 RGB (单目) 版,靠单目深度/法向/光流先验消歧,SDF 表面表示,端到端稠密重建
  • Paper:Zhu, Z., Peng, S., Larsson, V., Cui, Z., Oswald, M. R., Geiger, A., & Pollefeys, M. (2023). NICER-SLAM: Neural Implicit Scene Encoding for RGB SLAM. 3DV 2024. arXiv:2302.03594
  • K2E-B ID:[K2E-B-G5-7]
  • Max3 PDF[K2E] SLAM/[K2E-B-G] Geometry & Rendering/[K2E-B-G5] NeRF SLAM/[K2E-B-G5-7][2023] NICER-SLAM Neural Implicit Scene Encoding for RGB SLAM.pdf
  • Notion ID:(待创建)
  • Created:2024-03-31
  • Updated:2026-06-02
  • License转载欢迎 — 请署名 Yu Zhang 并链回 yuzhang.io 原文

Table of Contents


1. 概述

NICER-SLAM (Zhu et al. 2023, ETH,NICE-SLAM 原班人马) — 把 NICE-SLAM 推到纯 RGB (单目),不再需要深度相机。

单目三大难:深度歧义、3D 重建更难、优化难收敛。对策:用易获取的单目几何先验 (单目深度 + 法向 + 光流) 当额外监督去消歧 + 端到端联合优化位姿与几何。

前作 NICE-SLAM 见 NICE-SLAM (G5-2);纯单目深度版亦可对比 NeRF-SLAM (G5-3,走 DROID 而非先验)。本笔记读 arXiv 全文。

2. 表示 — 分层 SDF + 残差

coarse-to-fine 几何,用 SDF (不是占用):

  • Coarse:32³ 网格 + 32 维特征,MLP 解码基础 SDF:$s^{coarse} = f^{coarse}(\gamma(\mathbf{x}), \Phi^{coarse}(\mathbf{x}))$
  • Fine:多分辨率网格 (32-128,8 层) 解码 残差 SDF $\Delta s$
  • 最终 $\hat{s} = s^{coarse} + \Delta s$
  • 颜色:独立的 16 层特征网格 (16-2048) 解码 RGB

3. 单目几何先验

关键:用现成网络产出的单目先验当伪监督:

  • 单目深度 (Omnidata 等):仅含尺度/平移歧义 → loss 里求 per-frame 仿射对齐 $(w, q)$
  • 单目法向:约束表面朝向
  • 光流 (GMFlow):区域运动一致性

这些先验把弱约束的单目优化"拉直",弥补缺深度。

4. 损失函数

$$ \mathcal{L} = \mathcal{L}{rgb} + 0.5,\mathcal{L}{warp} + 0.001,\mathcal{L}{flow} + 0.1,\mathcal{L}{depth} + 0.05,\mathcal{L}{normal} + 0.1,\mathcal{L}{eik} $$

  • RGB:$\mathcal{L}_{rgb} = \sum |\hat{C}(\mathbf{r}) - C(\mathbf{r})|_1$
  • 深度 (仿射对齐单目深度):$\mathcal{L}_{depth} = \sum |(w\hat{D} + q) - \bar{D}|^2$
  • 法向:渲染法向 vs 单目法向 (角度 + L1)
  • Warp (RGB Warping):当前像素渲染深度 unproject 到 3D 再投影到相邻关键帧,比较两帧对应像素 RGB 颜色 L1 一致 (深度仅作几何对应的中间量)
  • 光流:GMFlow 运动引导
  • Eikonal:$\mathcal{L}_{eik} = \sum(|\nabla\hat{s}|_2 - 1)^2$ — SDF 正则 (见 NeRF/SDF 体渲染)

5. 局部自适应 SDF→密度

SDF 转密度的 $\beta$ 参数局部自适应而非全局:维护每 $64^3$ 体素的采样计数 $T_p$,

$$ \beta = c_0 \exp(-c_1 T_p) + c_2 $$

观测多的区域 $\beta$ 小 (表面锐),观测少的区域 $\beta$ 大 (平滑) → 收敛更稳。

6. 跟踪/建图/结果

  • 建图多阶段:coarse 几何 → +fine 几何 (25%) → 局部 BA + 位姿细化 (75%)
  • 跟踪并行线程,仅用 RGB 渲染 loss 优化位姿
  • Replica:几何 3.65 cm、ATE 1.88 cm — 持平 RGB-D 方法;新视角合成 PSNR 甚至超 RGB-D baseline

证明:纯 RGB + 单目先验也能做到 RGB-D 级稠密重建。

References

  • Zhu, Z., et al. (2023). NICER-SLAM: Neural Implicit Scene Encoding for RGB SLAM. 3DV 2024. arXiv:2302.03594 — 论文 (本笔记读 arXiv 全文整理)
  • 前作见 NICE-SLAM (G5-2);单目深度的另一路线见 NeRF-SLAM (G5-3);SDF/Eikonal 见 NeRF