SMERF


  • Description:SMERF 论文笔记 (读 arXiv 全文后所写) — 可流式、省内存的辐射场,把大场景切成子模型网格,MERF 式延迟渲染 + 从 Zip-NeRF 蒸馏,浏览器实时漫游大场景
  • Paper:Duckworth, D., Hedman, P., Reiser, C., Zhizhin, P., Thibert, J.-F., Lučić, M., Szeliski, R., & Barron, J. T. (2023). SMERF: Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration. ACM ToG 43(4), 2024 (SIGGRAPH 2024). arXiv:2312.07541
  • K2E-B ID:[K2E-B-G6-5]
  • Max3 PDF[K2E] SLAM/[K2E-B-G] Geometry & Rendering/[K2E-B-G6] Radiance Field Foundations/[K2E-B-G6-5][2023] SMERF Streamable Memory Efficient Radiance Fields.pdf
  • Notion ID:(待创建)
  • Created:2024-03-31
  • Updated:2026-06-02
  • License转载欢迎 — 请署名 Yu Zhang 并链回 yuzhang.io 原文

Table of Contents


1. 概述

SMERF (Duckworth et al. 2023, Google, SIGGRAPH 2024) — 可流式 (streamable)、省内存的辐射场,目标:浏览器里实时漫游大场景 (整层楼/室外)。

思路:把大场景切成 3D 子模型网格,每个子模型用 MERF 式 baked 表示 + 延迟渲染;任意视角只需载入一个子模型 → 资源受限设备也能跑。质量靠从高质 Zip-NeRF 教师蒸馏。

NeRF/Instant-NGP 基础见 NeRF / Instant-NGP;3DGS 是另一条实时路线,见 3D Gaussian Splatting。本笔记读 arXiv 全文。

2. 子模型网格分区

  • 相机原点把场景切成 $K^3$ 子体;每个子模型有自己的 contracted 坐标系
  • 每个子模型表示整个场景但详略不同:负责区高保真、区外粗略
  • 室外/单层场景实例化子模型从 $K^3$ 降到 ~$K^2$
  • 运行时只载一个子模型进显存 → 内存恒定

3. 延迟外观网络分区 + 特征门控

  • 延迟渲染 MLP 参数沿 $P^3$ 格点空间分布,按相机位置三线性插值 → 增视角相关效果容量而不掉速 (MLP 相对总模型极小)
  • 特征门控 (取代 MERF 把 triplane + voxel grid 简单相加),分两步:① 门控 (Eq.8) 取 voxel 特征第 8 维作门控权 $w(x)=[V(x)]_8$,乘 triplane 三面贡献后再加 voxel 特征 → $\hat t(x)=w(x)\cdot(P_x+P_y+P_z)+V(x)$ ② 拼接 (Eq.9) 把门控结果与原 voxel 特征沿通道拼接 → $t(x)=\hat t(x)\oplus V(x)$

4. 从 Zip-NeRF 蒸馏

不从头训,从高质 Zip-NeRF 教师蒸馏两路监督:

  • 外观监督:学生/教师渲染 patch 的光度 loss $$ \mathcal{L}_{rgb} = 1.5\cdot\text{DSSIM}(C, C^) + \sum|c - c^|_2 $$
  • 几何监督:匹配沿射线的体渲染权重 → 一致密度场
  • Ray jittering 数据增强:扰动训练射线原点 ($\sigma=0.03K$) 与方向 ($\epsilon=0.03$) → 提泛化、时序一致

5. 内存效率与部署

  • 每子模型:3 张高分辨率 2D 特征图 + 稀疏 3D grid,量化成 byte 数组;延迟网络参数留浮点
  • 自研 WebGL 渲染器跨平台浏览器查看
  • Ping-pong 缓冲隐藏子模型切换时网络延迟 → 平滑 6-DoF 漫游;资源 gzip 压缩二进制 blob

6. 结果

Zip-NeRF 大场景数据集:

  • 质量 PSNR 27.28 dB (K=5) ≈ Zip-NeRF 教师 27.37,比 3DGS 高 1.78 dB
  • 速度:比 SOTA 辐射场方法快约三个数量级 (Zip-NeRF 教师 ~0.25 FPS 为表中实例);workstation GPU 大场景 K=5 ~204 FPS、K=3 ~220 FPS;手机 55+ FPS (K=1, 380×640) 实时
  • 规模:300 m² 场景 @ 3.5 mm³ 体素分辨率

mip-NeRF 360 (K=1):PSNR 27.98 vs 3DGS 27.20;~466 MB。

意义:调和离线质量 (Zip-NeRF) ↔ 实时性能,大场景照片级在普通硬件可漫游。

References

  • Duckworth, D., et al. (2023). SMERF: Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration. ACM ToG 43(4), 2024 (SIGGRAPH 2024). arXiv:2312.07541 — 论文 (本笔记读 arXiv 全文整理)
  • 项目页: smerf-3d.github.io
  • 教师 Zip-NeRF (Barron 2023);实时对照见 3D Gaussian Splatting;baked 前作 MERF (Reiser 2023)