新闻资讯 人物专栏

ICEVE精选 | Lytro CTO Kurt Akeley:虚拟现实中的视差


导语

本文是由未来影像高精尖创新中心举办的ICEVE2016(北京国际先进影像大会暨展览会)的精华演讲及专访整理而成的系列专题文章,本系列内容涵盖专家专访、大会报道、行业纪实等,致力于梳理和提炼ICEVE大会的精华内容并传播给行业和大众。


image.png

未来影像高精尖创新中心国际顾问、Lytro CTO、美国工程院院士、SGI联合创始人 Kurt Akeley


谢各位到场,很荣幸能来到这儿,感谢Charles的邀请。


今天我要讲的主题是VR电影中的视差。需要强调的是,我讲的是VR电影画面,通俗点说,也就是相机所捕捉到的内容,而不是游戏当中的VR画面,两者有天壤之别。说回到视差,首先得简单说明一下。上午我们已经听到过对这个词的定义,但是我要讲的视差与之完全是两码事。


如果你上午也在的话,请忘掉上午的内容。我们所讲的是传统意义上的视差,基本上来说,就是从不同位置观察物体所产生的视觉差别。


image.png


大家可以看到屏幕上,这是韦氏词典有关视差的定义。视差应用于各个方面,举一个尤其有趣的例子:从地球上观察星星。利用地球公转的运动规律,当地球转到太阳不同方位时可以明显观察到星星排列的不同,那么具体星星的排列发生了什么样的变化,就是传统意义上的视差所研究的内容。


但这不是我们今天所讲的视差,我所说的视差,其定义并不常见,但在计算机视觉领域却是再合适不过的,即我们从不同角度拍摄到的画面,以及画面中可以得到的位置信息。想象一下通过两台相机去看一个简单的场景,好比幻灯片上右边这个画面。屏幕上出现的是两台相机捕捉到的大致画面。


很明显,两张照片中,两个物体的相对位置和绝对位置都不一样,由此我们便能得出相关信息。这里我想强调一点,图像里面没有物体,有的只是像素。为了让像素更明显,我做了点简单的处理。相机和画面看到的不是物体,而是像素。一些高级的计算机视觉软件可以对像素进行分析,推断出物体所在位置。对此有任何相关经验的人都会知道,这种分析是很难的。像素是粗糙的,上面有很多噪点,看上去很模糊,因此可能出现各种各样的差错。这是个大难题。但是,一旦分析正确,我们就能在画面中看到各种物体及其所处的不同位置。


image.png

接下来我们来聊聊VR的沉浸式体验。所谓沉浸式体验,和用眼睛去看二维的场景画面是不一样的,你会有身临其境的感觉,因为你看到的东西有了纵深感。你会感觉到有些东西离你近一些,有些东西离你远一些。人们分析物体距离自己有多远是一个十分复杂精妙的过程,其中包含各种技巧。


image.png


我列在大屏幕上的是10种我们会用到的技巧,以常见度进行了排序,这只是其中一些极具代表性的,此外还有很多其他技巧。在以上10种里我们会发现,大部分技巧是单眼技巧,也就是说只有一只眼睛或闭上一只眼睛也能得到的线索,例如,物体的大小、前后位置、明暗变化,以及和地平线之间形成的夹角,各种通过一只眼睛就能得到的信息。接下来我会进行详细的介绍。

 

大多数线索都是单眼线索,只有一两个是双眼线索——用两只眼睛才能得到信息。首先要说的是,有很多种方式都能帮助我们感知深度。有时,我们认为只有双眼线索才能产生3D效果,这显然不对。只要有以上任意一条线索,就能产生3D效果。我们的例子,这些列举的技巧,并没有表明视差的重要性。由于我们现在的主题就是视差,因此我要重新编排一下这个图标,把视差放在更为突出的位置,以便于我们意识到视差的重要性。

 

image.png


看,我把非视差线索放在了左边,视差线索放在了右边。有趣的事情发生了。再强调一遍,屏幕上列举的只是代表性的线索,并非全部线索。但是可以看到,其中半数是视差线索,半数不是。这样,视差的位置就更突出了,这非常有助于我们的理解。

 

我不想对非视差线索展开深度挖掘。一般而言,这些非视差线索效果都很好。这不是我们今天要讨论的问题,因此就不探讨相关细节了。我想深入挖掘一下这些视差线索,帮助大家更好地理解VR电影中哪些是有效的,更重要的,哪些是无效的。


首先要注意到,这些视差线索是成对运作的。对每一个单眼视差线索、双眼视差线索和焦点视差线索而言,都会有屏幕下方的图像线索和屏幕上方的物理线索。


严格来说,按我先前的定义,只有图像线索是真正的视差。但实际上,物理线索和图像线索有很紧密的联系,因此也可以被视为视差线索。为了阐明这一点,我们就直接进入正题吧,直接体验一下。这会大家可能都刚刚吃完午饭,可千万别睡着,这样才能跟得上。


首先,我们来感受一下什么叫头部运动视差,各位一起左右转动头部。做得好,Jim。很好,大家跟着Jim做。当头部左右转动时,你会发现,离你较近以及在你视野内的物体,在你眼中的位置发生了明显变化。就我而言,我转动头部的时候,这台立着的摄影机也在不停地变换位置,但是摄影机后面的观众移动得没那么快。这就是头部运动视差。


image.png


这就是我们所说的物理线索。转动头部的时候,我们能精妙地知道自己转动头部的幅度。而所谓的图像线索,就是在观测者视角中物体排列和绝对位置的改变。两者共同构成了单眼视差线索,起到了非常重要的作用。过去几年,人们通过头显做了无数实验,但是视差线索没有引起他们足够的重视,因此得到的结果大打折扣。只要稍微转动一下头部,就能感知物体的距离,用其他的方式或许就感知不到。

 

以上就是头部运动视差的介绍。接下来我们来讲讲双眼视差,这个就更有意思了。请各位把手抬到正前方,看着自己的手指,然后向自己身体的方向移动手指,感受一下头部发生的变化。感觉到眼球的转动了吗?这就是双眼深度线索的物理线索。


没错,我们的大脑能够感知眼球转动的频率,这对于感受目标物体深度是一条很重要的线索。我们盯着目标物体看时,余光还会扫到其他物体。这些物体也会在视网膜上成像。同时,我们大脑就会开始运转,根据这些物体与目标物体的相对运动路径计算出之间的距离。这个运算过程很精妙,而且是我们的一种本能。


好,以上就是有关身体线索和图像双眼线索的介绍,两者都是很有力的线索,但不是沉浸式体验的全部线索。最后聊一聊焦点线索。人们不大容易意识到,焦点也是一种视差线索。很少有人会把焦点线索说成是一种视差线索,但事实就是如此。焦点是瞳孔不同视角的融合,是小范围内的一种融合。瞳孔的大小只占眼间距的十分之一甚至二十分之一,跟头部运动幅度相比就更小了,但它依然是一条重要线索。


当然,这里面也有身体因素和图像因素。身体因素在这里指调节,按字面意思来说,就是眼睛焦点的改变。这种改变很难感受到,但是你在前后移动手指的过程中就会发现,那些手指以外的物体模糊程度会逐渐变化,如果你比我年轻的话,当然我是不会透露自己具体年龄的,也就是40多岁吧。对大多数人而言,随着年龄增长,会慢慢失去调节的能力。到那时,聚焦的能力会减弱。但是在座很多人都比我年轻,所以你们移近手指的时候就会发现,所看到图像的模糊度会有所变化。身体线索的调节依赖于眼部肌肉系统的变化,而图像的模糊程度则是另一回事。


互动环节到此为止。接下来问题来了,VR电影和这些视差线索有什么联系?注意,我讲的是通过相机捕捉画面而产生的VR电影。不知道大家对立体球面投影这项技术熟不熟悉。你们认为效果如何?很遗憾,效果不是很好。接下来我会告诉你们问题都出在哪里,以及如何解决这些问题。我们按刚才的顺序倒着讲。


首先是焦点线索,焦点线索在这里是完全行不通的。

image.png


为什么呢?在现实世界,我们注视自己手指的时候,焦点在手指上。手指一旦移动,焦点也就变了。这就是现实世界里的运作方式,但是头显里是不一样的。上午我们听到了一些致力于增强效果的研究,这里我就不详细展开了,确实是有办法的。但是目前头显还做不到。头显里有一个焦点距离。


正如你们看到的是一个显示屏,其复杂程度超过了头戴式显示器里的真实光学画面。这个画面里没有焦点距离,因此当你的眼睛聚焦的时候,画面上所有的物体都会落在焦点上。如此,我们就会失去焦点线索。眼睛不再调焦,只是集中于固定距离的物体,并且得不到模糊线索,因为当你眼睛聚焦在那个距离的时候所有物体都落在你的焦点内。也就是说,我们无法得到焦点线索和模糊线索。因此,对当前的头显而言,这两种线索其实没有用武之地。

 

双眼线索倒是能起到作用,但它们在球面立体投影当中的效果没有你想象得那么好。比如说,你往地平线看去,如果是这么看的话,可以得到不错的立体画面,但是一旦把头倾向一边,像这样,立体效果就没那么好了。再斜一点的话,就消失了。这跟看立体电视的道理是一样的。这不是什么好消息,但也没那么糟糕。真正糟糕的是,低头看地或抬头看天的时候,就没有立体感了。所有的双眼视差都会消失,而这种双眼视差尤其重要。这就是双眼线索在当今的VR电影当中失效的几种可能。


image.png



这一点在今天早些时候已经有人提到过了,我就不赘述了。还有一个坏消息是,焦点线索和双眼线索是不一样的。别忘了,双眼线索有时候还是有效的,但是焦点线索完全行不通。因此,结果是你不得不把目标物体距离和焦点距离分离开来,也就是说,要把眼睛聚焦在目标物体以外的物体上。大家可以试一试,可能做不到,不是件容易的事儿。


单是坐着故意完成这个动作是很难的。只有当你戴上VR显示器的时候,或是看《阿凡达》的时候,或是看3D电视的时候,才不得不分离目标物体距离和焦点距离。分离目标物体距离和焦点距离时,有些人会感觉做不到,有些人不喜欢这种显示方式,而做到的那些人则会觉得很累。


我们在实验室里做过测算,人们对物体深度的判断过程会变慢,精确度也会下降。所以说,从各个方面来看都不算什么好事。那么,问题就来了,人们集合各种线索之后,如果线索与线索之间有出入就容易造成混乱。这些视差线索里也包含物理因素,这是非视差线索所没有的。只有与物理元素有关的视差线索才可能带来身体的压力和不适。

 

最后还有一个关键问题,单眼视差总是客观存在的。就好像我们转动头部的时候什么都没有发生,我们会感到所有物体都在无穷远的距离之外,这从数学上来说是正确的,但是出于种种原因和种种线索,我们知道这些物体不是无穷远的。知道了这一点,我们就会明白,在转动头部时物体的位置保持不变是因为物体在跟着一起动。也就是说,我们动的时候,世界也跟着动,这会在很大程度上破坏身临其境的感觉。这时,世界似乎成了包围着我们的一幅二维图片,而不是包含我们本身在内的一个三维世界。这是一个很大的问题。

 

我总结一下今天的发言。视差线索在当今VR电影当中的呈现效果非常差,只有双眼线索还算差强人意,但表现也不佳。我们能做些什么呢?当然了,视差既是问题所在,也是解决方案。真正的问题是视差的缺失。


因此,显而易见,我们要做的是捕捉用户所需要的所有视差信息。信息量越大,用户可以活动的范围就越大,有信息总比没有信息好。如果我们能用摄影机捕捉到所有的视差信息,就可以用来分析用户所能看到的所有图像。


这些信息使用正确的话,用户所在的方位就无所谓了,他们总是能在图像上得到正确的视差,至少也能得到正确的运动视差和双眼视差。如果能保证数据足够详细,采样率足够高,且有满足功能的头显,也能得到正确的焦点线索。这说起来就有点远了。上午我们也听到过,有些问题面临着极大的挑战。但可以确定的是,无论用户在哪个位置,是什么样的朝向,都能得到正确的运动视差和双眼视差,这已经是巨大的进步了。  

 

我口中所说的捕捉所有视差,也就是捕捉光场的意思。七年来,我在Lytro(一家主营光场相机的公司)做的就是这个工作。我心里越来越清楚,这就是我最重要的事业。光场即所有的视差。不知道你们记不记得,我说过还是有办法的。

image.png


在Lytro的经历让我看到了希望,我们在通过捕捉光场来获取视差方面有很丰富的经验。过去几年,我们有几款相机上市,在技术上可以成功地捕捉到所有进入入射光瞳的视差信息。基本上,这些相机都内置微透镜阵列。图上画的是几个透视镜,但不要被图骗了,实际上这里有上千乃至上百万个细小的透视镜。将这些透视镜内置在相机标准物镜和背面的数字传感器之间,请看我画在这里的简图。


相机里有了这么一些50美分大小或2美元大小的微透镜,就可以捕捉到所有进入相机主透镜的视差信息,而不是捕捉仅仅一张图片。这不失为一件好事,但是恐怕你们当中大多数人都不清楚是怎么实现这个功能的吧,我第一次接触的时候也不是很清楚。很有趣的是,从数学角度来看,显而易见,通过一个安置了微透镜阵列的相机的传感器来捕捉所有信息,和用好多个相机来捕捉视差,其实没什么差别。


根据我们对视差的定义,即从不同角度捕捉图像,我更喜欢相机阵列方案,因为在不同方位的相机捕捉到的视差明显不会造成混乱。可喜的是,如果我们比较一下像素密度、相机阵列的规模和那个物镜的大小,就会发现它们捕捉到的信息是相同的,在细节方面没什么不同。


还有一个小问题就是,如果我们想把相机做成屏幕上这么大,就需要一个巨大的镜头,但是巨大的镜头又贵又重,在各方面都不大实用。所以说,如果是捕捉小面积范围内的光场,微透镜不失为一个有效的好方法。但是一旦涉及到大面积范围就捉襟见肘了。我们在研究的是如何捕捉到用户大脑里足够大小的光场。半米,一米,两米,或其他距离,但这比不上常规镜头入射光瞳的几毫米。所以说,用相机阵列比用微透镜阵列更合适。虽然从数学上来说,两者没有区别。


就我们所知,通过微透镜捕捉到的图像的处理方式完全可以应用到多台相机捕捉到的图像,这是我们的专长。理论上来说,是对光场相机技术的直接应用。但实际上,大家可以想象得到,这个过程中会遇到一些巨大挑战。


image.png


比如,好几台相机的校准方式和一台微透镜相机的校准方式有很大的区别。你会发现,在设置相机系统,比如旋转镜头时,很多事情不是对称的。旋转镜头会带来很多参数的变化。例如改变了常规镜头的聚焦,光轴就会变,其他参数也会变。所以说,校准多台相机是一件很复杂的事情。但我们不是第一批试图解决这个问题的人,现在已经有很多好用的技巧。另外,我们要拍的不是一张照片,而是每秒钟30张甚至60张照片。正如昨天所说的,帧率正在提升。如果有几十台甚至上百台高分辨率相机,那可是巨大的信息流。虽然这个系统问题较为庞大,但还是可以解决的。

 

第三点,如果能够拥有无数台相机,那么不需要搞清楚每个物体在场景里的具体位置就能够重建画面。但是拥有无数台相机是一个不切实际的想法。在相机数量有限的前提下,为了准确实现二次投影,帮助用户在所在位置创建出相机未能捕捉到的中间画面,我们还需要知道所有像素的深度。这个问题已经引起了广泛关注,在今天依然没有得到彻底的解决。

 

最后一点是关于焦点线索的。目前的头显无法实现光场的显示,也无法获取准确的焦点线索。此外还有许多其他挑战。我希望大家可以意识到,应用光场相机技术或许可以解决这个问题,但是解决起来一点也不容易。我们有一帮人都在忙碌地致力于这个工作,所以我们会说……这句话可能听起来有点绕,唯一可以确定的是一切不会像看上去那样。不过好消息是我们很快就能开发出一个产品,就像我所描述的那样,可以通过视景体捕捉视差。我们已经做了一些初步的工作,明年会投入更多的精力,希望可以提升VR电影的体验。

 

总结一下今天的演讲。如果用计算机实时生成图像,VR的沉浸感是很真实的,至少从视差线索的角度来说是这样的。但相机捕捉到的画面就不一样了,有太多错误的视差线索,使得这种沉浸感大打折扣。视差可以很好地理解人们对深度的感知,以及光场的捕捉和处理。最后,我们还提到了光场技术可以,并且正在被用来解决这些问题。我们有理由相信,在未来几年会出现实用的解决方案。那时我们就足以自信地告诉大家:“相机可以把电影表达得淋漓尽致,并且所有的视差和焦点线索都很准确。”


感谢各位聆听。