伯克利博士论文提出从单视频恢复四维场景表示的新方法,解决了形状和运动分离的难题,实现动态场景重建和新视角合成。
原文标题:【伯克利博士论文】揭示任何视频背后的四维世界
原文作者:数据派THU
冷月清谈:
首先,论文探讨了在静态场景下,如何从单视图或少量视图重建三维场景。pixelNeRF方法通过学习场景先验,实现了从欠约束输入中完成三维重建。
其次,论文研究了在没有三维形状的情况下,如何从视频中提取运动信息。Deformable Sprites方法将每个动态元素表示为变形图像层,实现了对二维运动的捕捉。
最后,论文提出了从单视频中联合恢复形状和运动的两种方法。SLAHMR方法针对动态人物,从单视频中恢复人物姿态和相机位置。Shape of Motion方法则将场景表示为四维高斯分布,可用于动态新视角合成和三维跟踪。
总而言之,这篇博士论文针对单目4D恢复问题提出了多种创新性方法,逐步解决了从静态场景重建到动态场景中形状与运动分离的难题,为机器理解视觉世界提供了新的思路。
怜星夜思:
2、Shape of Motion 方法将场景表示为四维高斯分布,这种表示方法有什么优势和局限性?
3、如何评价这篇博士论文的贡献和未来研究方向?
原文内容

来源:专知本文约2000字,建议阅读5分钟
在本文中,我构建了多个系统,用于从有限的图像观测中恢复场景表示。
随着我们开始与人工智能系统进行交互,这些系统需要能够以四维(4D)的方式理解视觉世界——也就是说,感知世界中的几何结构和运动。然而,图像空间中像素的差异可能由几何变化(如相机运动)或场景中的运动引起。要从单个视频中分离这两种来源是一项极具挑战性的欠约束问题。
在本文中,我构建了多个系统,用于从有限的图像观测中恢复场景表示。具体而言,我研究了一系列问题,逐步解决4D单目恢复问题中的不同方面,每个问题都针对该问题的欠约束特性提出解决方案。
首先,我研究了在没有场景运动的情况下,从欠约束输入中恢复形状的问题。具体来说,我提出了pixelNeRF,这是一种从单视图或少量视图合成静态场景新视角的方法。通过在多个场景中训练基于图像特征的三维神经表示,我们学习了一个场景先验。这种学习到的场景先验使得可以从单个或少量图像的欠约束输入中完成三维场景重建。
接着,我研究了在没有三维形状的情况下恢复运动的问题。特别是,我提出了Deformable Sprites,一种从输入视频中提取动态场景持久元素的方法。我们将每个元素表示为在视频中变形的二维图像层。
最后,我提出了两项关于从单个视频中联合恢复四维世界中形状和运动的研究。首先,我研究了动态人类的特殊情况,并提出了SLAHMR,通过该方法,我们可以从单个视频中恢复所有人的全局姿态以及世界坐标系中的相机位置。然后,我转向从单个视频中恢复任意动态对象的通用情况,在Shape of Motion中,我们将整个场景表示为四维高斯分布。这种表示可以用于动态新视角合成和三维跟踪。