你所在的位置: 首页 > 正文

挑战相机、人物同时移动,谷歌实现高质量3D深度信息重建,避免直接3D三角测量

2020-01-25 点击:632

人类的视觉系统非常强大。它可以根据二维投影来理解我们的三维世界。即使在有多个运动物体的复杂环境中,人类也能解释物体的几何形状和深度顺序。长期以来,计算机视觉一直在研究如何从二维图像数据中重建场景几何,从而再现人类这种独特的能力。然而,在大多数情况下,计算机视觉系统很难实现稳定的重建。

当相机和场景对象可以自由移动时,这变得尤其具有挑战性。因为它混淆了传统的基于三角测量的三维重建算法:它假设同一物体可以同时从至少两个不同的角度被感知。满足这一假设需要多摄像机阵列(如谷歌跳转);或者场景需要保持静止,只有一个摄像机移动。因此,大多数现有方法要么过滤掉移动对象(将其指定为“零”深度值),要么忽略它们(导致不正确的深度值)。

在本文《Learning the Depths of Moving People by Watching Frozen People》中,谷歌的研究团队应用了一个基于深度学习的解决方案。该方法可以根据摄像机和物体可以自由移动的普通视频生成深度图,并且通过对人体姿态和形状的机器学习避免了直接的3D三角测量。尽管该行业最近开始使用机器学习进行深度预测,但谷歌表示,其研究是首个为相机和物体自由移动而开发的深度学习程序。在这项研究中,谷歌主要关注人类,因为他们适合增强现实和3D视频效果。

1。获取训练数据

谷歌使用监督深度预测模型训练方案,该方案要求移动摄像机捕捉自然场景视频和精确的深度图。关键问题是从哪里获得这样的数据。合成数据需要对各种场景和自然人类行为进行逼真的建模和渲染,这非常具有挑战性。此外,基于这些数据的训练模型可能难以推广到真实场景。另一种潜在的方法是使用RGBD传感器(如微软Kinect)来记录真实场景,但深度传感器通常局限于室内环境,它们有自己的3D重建挑战。

谷歌选择使用现有的数据源:YouTube视频。YouTube有很多虚拟挑战:每个人都以特定的形状摆姿势,然后不眨眼,不出声,不动,就像玻璃窗上的虚拟模型。因为整个场景是静止的(只有摄像机在移动,所以基于三角测量的方法是有效的,并且我们可以获得包括真实人物在内的整个场景的精确深度图。我们收集了大约2000个视频,涵盖了各种各样的现实场景,人们自然地在不同的群体中摆姿势。

2。推断移动物体的深度

虚拟挑战视频为移动摄像机和“假人”提供深度监控,但我们的目标是处理包含移动摄像机和移动物体的视频。为了克服这个障碍,我们需要建立网络输入。

一种可能的方法是分别推断视频的每一帧的深度(即模型的输入只有一帧)。尽管该模型优化了深度预测的单图像方法,但是我们可以通过考虑来自多个帧的信息来进一步改善结果。例如,运动视差,即两个不同视点之间静态物体相对明显的运动,可以提供强有力的深度线索。为了利用这些信息,谷歌计算了视频中每个输入帧和另一帧之间的2D光流,后者代表两帧之间的像素位移。流场取决于场景的深度和摄像机的相对位置。然而,由于已知的摄像机位置,谷歌可以从流场中移除它们的依赖性,这可以生成初始深度图。初始深度仅对静态场景区域有效。为了在测试过程中处理移动的人体对象,谷歌应用人工分割网络在初始深度图中掩盖人体区域。然后,网络的完整输入包括RGB图像、人体遮罩和来自视差的遮罩深度图。

该网络的工作是“修复”包含人体对象的区域的深度值,并优化其他位置的深度。因为人类具有相同的形状和身体大小,网络可以通过大量的训练样本进行学习。经过训练,谷歌的模型可以处理包含任何相机和人体运动的自然视频。

以下是基于视频的深度预测模型结果和其他示例

3。3D视频效果使用深度映射

对于谷歌的解决方案,预测的深度映射可用于生成一系列3D感知视频效果。一种这样的效果是合成散焦。下面是一个使用普通视频和谷歌深度映射的例子。

谷歌指出,深度映射的其他支持应用包括从单目视频生成立体视频,以及将复合重心对象插入场景。深度映射可以同时用来自其他帧的内容填充空白和遮挡区域。在下面的例子中,谷歌在几帧中手动旋转相机,并用其他帧的像素填充演员后面的区域。

原始链接:https://yivian.com/news/61612.html

来源:新浪虚拟现实

——

日期归档
濛阳农业网 版权所有© www.dijibay.com 技术支持:濛阳农业网 | 网站地图