NeRF-VINS


  • Description:NeRF-VINS 论文笔记 (读 arXiv 全文后所写) — 把预建 NeRF 地图接入 MSCKF 视觉惯性导航,用 NeRF 渲染合成图做定位约束,嵌入式实时
  • Paper:Katragadda, S., Lee, W., Peng, Y., Geneva, P., Chen, C., Guo, C., Li, M., & Huang, G. (2023). NeRF-VINS: A Real-time Neural Radiance Field Map-based Visual-Inertial Navigation System. ICRA 2024. arXiv:2309.09295
  • K2E-B ID:[K2E-B-G5-11]
  • Max3 PDF[K2E] SLAM/[K2E-B-G] Geometry & Rendering/[K2E-B-G5] NeRF SLAM/[K2E-B-G5-11][2023] NeRF-VINS Neural Radiance Field Map-based Visual-Inertial Navigation.pdf
  • Notion ID:(待创建)
  • Created:2024-03-31
  • Updated:2026-06-02
  • License转载欢迎 — 请署名 Yu Zhang 并链回 yuzhang.io 原文

Table of Contents


1. 概述

NeRF-VINS (Katragadda et al. 2023, UD RPNG 黄国权组, ICRA 2024) — 把预训练 NeRF 地图接入 MSCKF 视觉惯性导航 (VINS)。

思路:NeRF 能合成新视角 → 在当前估计位姿附近渲染合成图,与实拍图做 2D-2D 匹配 → 产生地图约束 (相当于对预建地图的回环/重定位),解决视角受限。强调嵌入式实时

MSCKF 见 MSCKF 那篇;NeRF/Instant-NGP 渲染见 NeRF / Instant-NGP。本笔记读 arXiv 全文。

2. 状态与 MSCKF 框架

状态 $\mathbf{x}_k$ = 惯导状态 (位姿/速度/bias) + 历史 IMU 滑窗位姿 + 3D 环境点。IMU 非线性运动学传播 (白噪声 + bias 随机游走)。基于 MSCKF 混合策略:长期跟踪特征保留在状态中 (跟丢前),短期特征用 MSCKF 零空间投影、不进状态、靠滑窗多帧约束 (见 MSCKF)。

3. 两类观测 — 实图 + NeRF 合成图

实图测量 (标准 bearing 模型):

$$ \mathbf{r}{C_k} = \mathbf{z}{C_k} - h_c(\hat{\mathbf{x}}_{T_k}, \hat{\mathbf{p}}_f^G) \approx \mathbf{H}T\tilde{\mathbf{x}}{T_k} + \mathbf{H}_f\tilde{\mathbf{p}}f^G + \mathbf{n}{C_k} $$

NeRF 合成图测量:在估计位姿附近渲染图 → 与当前帧 2D-2D 特征匹配 → 关联到地图坐标系特征:

$$ \mathbf{z}_{N_k} = h_n(\mathbf{p}f^G) + \mathbf{n}{N_k} = \Lambda(\mathbf{p}f^K) + \mathbf{n}{N_k} $$

地图→全局变换含尺度 $s$、旋转 $\mathbf{R}_G^N$、平移 $\mathbf{p}_G^N$ (NeRF 地图与导航系对齐)。NeRF 测量等于给导航加预建地图的全局约束 → 抑制漂移。

4. 实时渲染策略

嵌入式实时关键:

  • NeRF 渲染半分辨率 (212×240,仅水平方向减半 424→212),再 FSRCNN 超分还原至原尺寸 424×240
  • 渲染独立线程 (>10 Hz,半分辨率);整体定位 15 Hz (Jetson AGX Orin)
  • SuperPoint 描述子匹配 (对低分辨率伪影鲁棒),TensorRT + ResNet18 加速
  • 渲染后端用 Instant-NGP (见 Instant-NGP G6-2)
  • COLMAP 优化位姿训练的 NeRF 渲染质量最好

5. 结果

AR Table 数据集:轨迹误差 ~0.44°/1.5 cm,优于 ROVIOLI+Map (1.32°/6.8 cm),精度与 HLoc 相当 (HLoc top50 ~0.45°/1.3 cm),但 HLoc 鲁棒性差 (top5 在某序列定位失败率达 38.9%),Jetson AGX Orin 上 15 Hz 实时、开销小。

定位范式:与 NICE-SLAM 等"在线建图"不同 — NeRF-VINS 是用预建 NeRF 地图做重定位/导航 (map-based localization),更接近工程落地。

References

  • Katragadda, S., et al. (2023). NeRF-VINS: A Real-time Neural Radiance Field Map-based Visual-Inertial Navigation System. ICRA 2024. arXiv:2309.09295 — 论文 (本笔记读 arXiv 全文整理)
  • 滤波后端见 MSCKF;渲染后端见 Instant-NGP (G6-2) / NeRF