Vox-Fusion


  • Description:Vox-Fusion 论文笔记 (读 arXiv 全文后所写) — 稀疏体素 + 八叉树动态分配的神经隐式 SLAM,每体素一个隐编码解码 SDF,支持场景增量扩展
  • Paper:Yang, X., Li, H., Zhai, H., Ming, Y., Liu, Y., & Zhang, G. (2022). Vox-Fusion: Dense Tracking and Mapping with Voxel-based Neural Implicit Representation. ISMAR 2022. arXiv:2210.15858
  • K2E-B ID:[K2E-B-G5-4]
  • Max3 PDF[K2E] SLAM/[K2E-B-G] Geometry & Rendering/[K2E-B-G5] NeRF SLAM/[K2E-B-G5-4][2022] Vox-Fusion Voxel-based Neural Implicit Representation.pdf
  • Notion ID:(待创建)
  • Created:2024-03-31
  • Updated:2026-06-02
  • License转载欢迎 — 请署名 Yu Zhang 并链回 yuzhang.io 原文

Table of Contents


1. 概述

Vox-Fusion (Yang et al. 2022, 浙大 CAD&CG, ISMAR) — 神经隐式 SLAM,用稀疏体素 + 八叉树动态管理场景,每个体素挂一个隐编码 (latent code) 经共享 MLP 解码 SDF。

核心创新:动态体素分配 — 不像 NICE-SLAM 预设固定边界网格,Vox-Fusion 边走边按观测增量分配体素 → 支持未知/可扩展场景。

NeRF/SDF 基础见 NeRF;NICE-SLAM 见 NICE-SLAM (G5-2)。本笔记读 arXiv 全文。

2. 稀疏体素 + 八叉树

  • 场景表示为稀疏体素集合,仅在观测到表面处分配
  • 八叉树 (octree) 管理体素,自顶向下遍历定位含查询点的体素;Morton 码 (Z-order) 编码体素坐标,并通过位移 (bit-shifting) 快速定位相邻体素 → 共享角点 embedding 查找 (基于八叉树,非 Instant-NGP 那种哈希表查找)
  • 新观测落在未分配区 → 动态新增体素 (增量扩展,不遗忘)
  • 体素角点存可学习特征向量 (embedding),相邻体素共享公共角点的 embedding

3. 体素隐编码解码 SDF

任意点 $\mathbf{p}$ 落入某体素:

  1. 取体素 8 角的 embedding,按 $\mathbf{p}$ 相对位置三线性插值 → 特征 $\mathbf{f}$
  2. 共享 MLP 解码器 输入 $\mathbf{f}$ → 输出 SDF 值 + 颜色
  3. SDF → 经可微转换为渲染权重 (采用 Azinović 2022 Neural RGB-D 方案:$w_i = \sigma(s_i/tr)\cdot\sigma(-s_i/tr)$,$tr$ 截断距离) 做体渲染;非 NeuS 那套 SDF→density (NeuS 仅作对比)

SDF (有符号距离) 而非占用/密度 → 表面定义更清晰,利于提网格。

4. 渲染与优化

  • 沿光线在分配的体素内采样 (跳过空体素,省算力)
  • 体渲染累积颜色 + 深度,与观测算 光度 + 深度 loss
  • 跟踪:固定地图,优化当前帧位姿 (可微渲染反传)
  • 建图:滑窗关键帧 + 体素特征 + 解码器联合 BA

5. 对比 NICE-SLAM

NICE-SLAM Vox-Fusion
空间结构 预设固定分辨率密集网格 动态稀疏体素 + 八叉树
场景边界 需预知 增量扩展,未知场景友好
几何量 占用概率 (occupancy) SDF
查找 网格索引 八叉树遍历 (Morton 码编码)

动态体素让它对未知尺度场景更鲁棒;八叉树稀疏存储省内存。属神经隐式 SLAM 中"显式空间结构 + 隐式解码"路线。

References

  • Yang, X., Li, H., Zhai, H., Ming, Y., Liu, Y., & Zhang, G. (2022). Vox-Fusion: Dense Tracking and Mapping with Voxel-based Neural Implicit Representation. ISMAR 2022. arXiv:2210.15858 — 论文 (本笔记读 arXiv 全文整理)
  • 对比对象见 NICE-SLAM (G5-2);SDF/体渲染基础见 NeRF