新闻资讯 人物专栏

ICEVE精选 | James Foley:多真实才够真实?

导语

本文是由未来影像高精尖创新中心举办的ICEVE2016(北京国际先进影像大会暨展览会)的精华演讲及专访整理而成的系列专题文章,本系列内容涵盖专家专访、大会报道、行业纪实等,致力于梳理和提炼ICEVE大会的精华内容并传播给行业和大众。



image.png

James Foley 未来影像高精尖创新中心国际顾问,美国工程院院士,佐治亚理工大学教授


谢各位,很荣幸来到这里,今天我要用这个演讲让一项技术之火撩动大家的心扉,你们准备好了吗?一直以来,我都很好奇多逼真才叫逼真。这个问题适用于各个领域,不仅仅是视频和电影,还适用于恐惧症的治疗,也能告诉人们如何完成任务。在不同的语境下,答案有所不同。今天,我要讲述的重点是恐怖谷理论(uncanny valley)


image.png


恐怖谷是什么意思呢?我想在座很多人都知道恐怖谷理论,也可以讲述一些有关实验来对其进行解释。或许我们对恐怖谷理论的了解并不深入,但首先值得肯定的是,恐怖谷是客观存在的,这一点毫无疑问。那么恐怖谷理论是什么东西呢?这是日本森昌弘博士于20世纪70年代提出的一种假设。这种假设认为,当我们想到机器人、 虚拟化身、计算机生成物体的逼真程度时,随着逼真度的变化……我们的感受也会随之变化。

 

说到逼真程度,不管是机器人还是毛绒玩具都有不同的逼真程度。当这些物体在这条坐标轴上无限逼近真实物体时,我们的好感度和舒适度会有怎样的变化。恐怖谷理论认为,当虚拟物体的逼真程度到达一定界限,与真实物体几近相同但不完全相同时,我们对其好感度会陡然下降。


如果我们看到的是动态物体,比如说僵尸,那么好感度会更进一步下降,甚至不如面对一具尸体。不过这里要解释一下,恐怖谷中的“恐怖”一词在这里是一个特殊的术语,与怪诞、非自然、怪异等词语的含义有所不同。斯坦利·库布里克称,当物体存在某种异样时,我们就会产生“恐怖”感。


据我们所知,第一个在怪诞性、奇异性语境下提出“恐怖”一词的人是西格蒙德·弗洛伊德。“恐怖”即感到可怕而畏惧的心理,与阴森怪诞的感觉类似。现在有很多东西都被做得很逼真,比如当我们想让动画片逼近现实,那么就得开始格外关注脸部表情这块内容。因为有很多研究表明,脸部是情绪的载体,尤其在做脸部特写时,我们对于动画当中不寻常、错误的地方会异常敏感。


脸部有许多方面要考虑,比如微表情,我们无法控制微表情,但它们是客观存在的。不知各位听过没有,赌徒会通过观察对手的脸部寻找线索,寻找无意识的细微脸部表情,这些表情透露了对手拿到的是一手好牌还是一手烂牌。正是这种脸部的微小细节影响了我们对真实性的认知。如果我们想要或者需要模拟现实,眼睛的注视、眨动,当然还有身体的移动、身体表面的某些特性都是很重要的方面。

 

市面上有很多动画片,有些是落在了恐怖谷区间,而有些则规避了恐怖谷区间。


《极地特快》由于人物塑造缺乏真实性而备受影评家诟病。配音很真实,动作呈现也比较流畅,但是脸部刻画,尤其是脸部表情,假得不能再假了。

 

媒体1_20170607105349.gif

 《极地特快》片段


而《恐怖妻子俱乐部》里面的脸部表情不大对劲。虽然发型不错,但是头发丝儿一动也不动。

《恐怖妻子俱乐部》片段


有些动作……以这里的额头为例。可以看到,额头这块地方没有任何皱纹。



《恐怖妻子俱乐部》片段2


这就是这些人物形象看起来哪里不太对劲的原因之一。毫无疑问,他们落在了恐怖谷的区间内。如果他们看起来没什么异样的话也就不会落在这个区间。但事实是他们看起来确实很奇怪,而且有些走路姿势很笨拙。

 

来这里的飞机上,我看完了《圆梦巨人》。里面的巨人走路姿势有点奇怪。实际上,我们本来也不会期待巨人的走路姿势和人类一样,我们觉得巨人走起路来就是和人类不一样的。但是,人看起来就要像人才行。我们是可以跨越恐怖谷的,可以交付出非常令人满意的工作。下面是《数字艾拉》片段。

 


《数字艾拉》片段

 

观察所有这些细节。看看这毛孔,这眼睫毛,这皱纹,不过这一切都是假的。实际上是南加州大学Paul Deverick通过电子扫描技术打造的,这种脸部重现技术非常高超。视频播放的是艾拉的日常生活,但是如果我们想要艾拉做点别的事情就不行了。接下来让我们看看另一部让人印象深刻的故事片《本杰明·巴顿奇事》。

 


本杰明·巴顿奇事》片段

 

本杰明·巴顿的故事呈现十分逼真,在恐怖谷理论中绝对是位于积极的一侧。影片里没什么怪诞的画面,只有当主角脸上出现网状物时,观众才意识到所有画面都不是真实的。在以上这些例子中,《本杰明·巴顿奇事》是通过运动捕捉实现的,《数字艾拉》则是通过无数台相机来捕捉脸部表情的。我们所能做的就是录入并重播,因此影片人物无法实现没有记录在数据当中的话语和表情。也就是说,我们可以做出很大很大的努力尝试跨越恐怖谷,但不可能完全跨越。

 

这些视频在一定程度上表明,恐怖谷确实是客观存在的,尤其是我们刚刚提到的第二个案例。虽然可以直觉认为恐怖谷是客观存在的,但问题是,有没有真实的控制心理学研究实验可以支持这一观点呢?如果答案是肯定的,又是什么引起了恐怖感?比如说,我们要做实时动画或者游戏,既然无法兼顾所有方面来实现逼真效果,那么应该努力把握好哪些方面?

 

首先,我们来想一想,恐怖谷是客观存在的吗?直觉告诉我们它是存在的。不过还是让我们看看为了解答这个问题所做的两个实验。第一个实验是为同一个人打造了十个不同的形象,按照逼真程度从低到高,打造了从铅笔卡通形象到真实人物照片的形象。控制实验环境中我们让无数个实验对象观察这些形象并对他们提出一些要求。


image.png


首先,我们要求实验对象给这些形象的逼真程度排序。这是因为在绘制恐怖谷的图示之前必须知道这些形象的逼真度排序。结果表明,实验对象排列出来的顺序与我们编排的顺序基本一致,但也有一定出入。比如说将带阴影形象和基础形象对调。


对很多实验对象而言,有阴影的这个形象看起来比我指的另两个形象更加逼真。这就是从十分抽象到十分逼真的逼真度排序,应该是一个0至7分单调递增趋势,这就是我们最初进行排序的目标。然后,我们让实验对象对这些不同形象的吸引力进行排序,异常的结果在图线上就形成了一个山谷。看这里,就是这样一个山谷。最大的山谷出现在3号形象。


image.png


3号的逼真程度不是很高,算不上一张合格的照片,但是不是卡通形象。所以这里有一个山谷。这边标黑的部分是假设的恐怖谷。可以看到,这里的曲线和另一边的恐怖谷曲线不尽相同。很可能因为我们提出的问题是:“这个形象对你而言有多大的吸引力”,而非“这个形象怪异吗”。两个问题下的结果当然会有出入,但关键是这里也有一个山谷。当我们问到亲和度时,发现结果产生了另一个山谷。


image.png


注意,这边几个卡通化的形象,其亲和度甚至比真人的亲和度还高。但这并意味着恐怖谷就不存在了,这种倾斜背后还有别的东西,这只是一种实验设计,它所问的问题并不完全准确。

 

第二个实验是一个变体实验。从机器人、安卓机器人到真人,我们准备了一系列共11个形象,并寻找许多被试者参与实验,告诉我们这些形象是更像机械还是更像人类,是陌生还是熟悉,并对其怪诞程度排序。这次我们问对了问题,直接就问的怪异程度。请看这里的结果,图上有3条折线。


image.png


我们要研究的重点在于最怪异的,中间这块地方有一个峰值,大概是在机器人和真人的正中间位置。是什么呢?有点像仿真人,而不是看起来不太真实的人。至于熟悉度方面,有趣的是,机器人的得分是4分、3.8分左右,被试者认为机器人的熟悉度高于其他。当然了,真人的照片熟悉度是最高的。

 

那么到底是什么引起了恐怖感呢?比如那些视频里,是什么让我们感到恐惧呢?关于这一点我们有不少理论。我认为最能说得通的理论是认知失调理论,又称认知不和谐理论。该理论认为,当视觉呈现与个人认知并不完全一致时就会出现认知失调。比如说,我对于动态的皮肤应该有哪些细节有一定的认知。


但是实践中,我们或许可以呈现出脸部所有的毛孔,但是说话的时候却没有呈现出皱纹。又或者是,眼睛可以被刻画得很细腻,但是只能死死盯着前方,无法往上看,往下来,来回左右看。就我所知,似乎有不少实验都可以证实这一点。其中一个实验邀请了大量被试者,好像是200人。他们对真人视频和两个CG人物视频做了排序。其中一个CG人物有脸部全动画。看上方这个,鼻子周边有一些皱纹,额头上也有一点,但是眼皮和眉毛都不会动。


image.png


接下来我将给大家播放一下两个CG人物的视频。


媒体8_20170607111416.gif

媒体9_20170607111456.gif

 

这些是对现实的全面虚拟。男女性别的我们都有做,我只播放了男性虚拟人物的视频。全面现实的虚拟没有部分虚拟的恐怖。比如说,人们会认为,半张脸动画,也就是只有下半张脸会动的动画,比全脸动画恐怖。人们认为全脸动画就没有那么恐怖,那么怪异。这就是人们的一些想法。


另外一个实验也能验证失调理论,这个实验把静态画面作为研究对象。我们让一些人做出各种表情并对其拍照。比如一张照片里有一双充满恐惧的眼睛,另一张照片里有一个快乐幸福的微笑。然后我们对照片进行了合成,合成的这张照片脸上洋溢着快乐,眼睛却流露出恐惧。还有眼睛里面有恐惧,脸上其他部分没啥情绪的表情。还有一张眼睛嘴角都流露出恐惧的照片。


我们找了很多人,采访对象越多越好。他们看到的不仅仅是这里所展示的3张照片,他们看到的是无数张类似的照片,就是在座各位看不到罢了。很多照片里,上半张脸和下半张脸所流露的情绪并不协调。结果表明,人们认为最不协调的脸看起来最奇怪。以上就是支持失调理论的一些证据。

 

image.png


那么我们如何得知,哪些因素决定了动画当中的真实感和怪异感呢?有一个很巧妙的实验,我个人认为也是我所讲述的所有实验中最巧妙的一个。这个实验是由CFU的Jessica Hodgeins及其团队在匹兹堡的迪士尼制片厂完成的。


我们让脸动起来,眼却没有动,只是盯着前方看。这是一种斜视眼,有时又被称作弱视。或者只有下半边脸,也就是下唇动,上唇不动。半边脸,也就是只有半边脸能动,另外半边就好像中风病人瘫痪了的半张脸。还有这种的,有一只手臂不能动,或者说这只手臂有癫痫。我们来观看一下实验中用到的视频片段。


 


以上就是我们的视频片段。无数被试者对两个一组的视频分别进行了对比排名。结果如何呢?结果之一表明,在这个具体案例中,眼部运动缺失没什么影响。这一点大大出乎我们的意料,因为大家知道,眼部运动在沟通交流中至关重要,可以判断对方是否活着或者说是不是真人。


我认为其原因在于没有对脸部进行近景拍摄。视频用广角镜头对整个厨房进行了拍摄。另外,画面当中有各种各样的动作。画面中的女子到处走动,手也没有停下来过,所以我们不大会把注意力放在她的眼睛上。


我个人并不认为这是一个一般性的结论。另一结果表明,对真实性而言,人们认为脸部表情的变化比肢体运动更重要。胳膊不管动不动都没有什么要紧。对怪异度而言,使人联想到某种疾病的动画最容易引起实验对象的反感,比如说只有半边脸可以正常运动,可能是由中风、弱视或者眼部肌肉问题造成的。


再比如说,胳膊无法移动,可能是中风或偏瘫的症状。关于恐怖谷有这么一个理论,经验告诉我们,某种异常现象可能是疾病引起的,甚至可能会传染,所以我们对这种异常格外敏感。因此,人们会被可能患有某种疾病的人吓跑。我个人认为这个观点不是非常可信,但是我希望有人可以重新做一次这个实验,用非常真实的画面,而不是这种卡通形象,这些图像的逼真程度远远不够。总而言之,这个实验告诉我们,人们对某些因素的敏感度更高。

 

接下来再简单介绍一下另外几个实验,通过这些实验我们能够知道对什么更敏感,对什么不敏感,并且可以帮助我们规避恐怖谷。不过值得一提的是,实验只能看出我们对什么更加敏感,并无法得知要做到什么程度才能规避恐怖谷。这是两个人在跑步的动画。


媒体5_20170607125622.gif

跑步动画(右边为真实)


其中一个是计算机合成的,其跑步动作的每个环节都是由机器控制完成的。另外一个是真人跑步时捕捉到的画面,身体上特定的点,肩膀等,都进行了数字化处理。也就是说,动作捕捉的画面捕捉到的只是肩膀、臀部等地方的运动变化。哪个看着真实哪个不真实?很不好说。这里面有一点随机性。这是由机器控制完成跑步动作通过关节等部位扭转而合成的跑步者和真人    之间的其中一点区别。辨认出真正的跑步者有一定的随机性。


我们对其他肢体动作有敏感性吗?有一个有趣的实验,要求儿童和成年人做出相同的一组动作并对他们的动作进行捕捉。然后把这些画面给很多人看,问他们是否能看出这个动作是成年人做的还是儿童做的。如果答案是肯定的话,那就意味着我们可以区分儿童和成人的动作。


实验结果显示确实可以。这表示人们能够区分动作的细微区别,也意味着我们在制作动画时既不能把成人的动作强加于儿童,也不能把儿童的动作强加于成人。不管是哪种情况,把孩子的动作强加到成人身上还是把成人的动作强加到孩子身上,都会带来不匹配的感觉。


这里有两个例子,都在做开合跳,类似于上下跳。我想让在座所有人猜一猜哪个是儿童哪个是成人。我待会儿会告诉大家答案。


媒体1_20170607130224.gif

开合动作1

媒体2_20170607130334.gif

开合动作2


因为这里太黑了,就不让大家举手表示来看有多少人答对了。都想好了吗?我要公布答案了。开合动作1为儿童,没错,儿童的跳动幅度更大,更没有规律可言。

 

那么眨眼呢?我们都知道,如果画面里只有头部,尤其是在头部特写时,脸部的一切就变得至关重要。人们对于闭眼睁眼的动画有多敏感呢?我们做了一个巧妙的实验,用高速拍摄的方式拍下了真人眨眼的动作,并通过电子化得到其运动轨迹。这是一个真人闭眼睁眼的运动轨迹,包含速度信息和时间信息。


image.png


横轴上表示的是时间,竖轴上是闭眼睁眼的运动转移轨迹。制作简单动画时我们可能会做一个线性插值,这样眼睛就闭上了。再做一个线性插值眼镜就睁开了。这是动画的慢镜头回放。这些不是高速摄影得到的照片,而且眼镜开合的动画。这个是我们眨眼的真实画面。这里有线性插值。实验里用到了5条不同的运动轨迹。我们从1到7给逼真程度进行打分。真实画面得了4分以上,有线性插值的得分在4.7到4.87之间。不存在明显的差距,但是我们盯着两个视频看的时候还是能看出区别。

 

那么微笑呢?我们可以区分真笑和假笑吗?我们来看看真心的笑容和勉强的假笑。你懂的,就是“勉强笑一个”的那种。这个实验有三组情形:真人的微笑视频、微笑运动轨迹得到的视频,以及通过线性插值得到的视频,操作方式从简单到复杂都有。这些只是定格画面,待会儿就会为大家播放视频。


这些拍摄的是一系列真笑和假笑。可以看到两者之间有些许差别,这边当然也能看到一些差别。刚开始的时候会有细微的不同。这些是嘴角的运动轨迹和时间信息。有些视频就针对自然路径和线性路径。


image.png


如果我们试着问一大批人,哪个是假笑哪个是真笑,你应该会认为这是可以区分的,没错,大多数人都能区分。和大家分享一下实验成果。按真实性给3组进行打分,区间在0到100分之间。3组分别是百分百纪实的视频、微笑路径及速度的视频,以及通过线性插值得到的视频。我们来看看结果。


对真笑而言,画面越真实越容易判断。有趣的是,对假笑而言,反而是路径和速度得到的视频更好判断,真实视频不好判断。对此,我无法做出合理的解释,但事实就是如此。总而言之,我们对脸部很多东西都有敏感性,但是该实验无法告诉我们需要在非线性插值上做到什么程度才能让眨眼或者微笑的动作达到逼真的效果。这不算在测试怪异程度,也不是在测算我们在恐怖谷的哪一个位置,这是帮助我们了解恐怖谷的一个开始。

 

我之前提到过,恐怖谷很可能是由于不匹配信息造成的。当然动画师也知道这一点。接下来这个片段来自《海底总动员》(视频观看:戳这里)。 


这里并不是人类的恐怖谷。总的来说,《海底总动员》不是要模拟真实画面,但是有一个例外,鱼相关动作的动画看上去很逼真。还有一个视频里面可以看到,《海底总动员》的动画师让鱼在鱼缸里游泳,旁边还有一条游动的鱼,真是一个巧妙的组合。他们在动作组合方面做得很好,但是并没有特意把鱼刻画得很逼真,因此《海底总动员》里的鱼看上去就是卡通鱼。


许诚毅参与制作的《怪物史莱克》也有这种混搭。他们创造Fiona这个人物的时候,早期的草图是很接近真人形象的。我们想让Fiona不那么像真人,这样就能融入其他角色,避免混乱。最后,我们给了Fiona一双大于真人眼睛的眼睛和比真人更顺滑的肌肤。这是在故意往恐怖谷的左边移动。这样Fiona和影片当中其他角色比起来就不会给人混乱的感觉。


image.png

《怪物史莱克》Fiona


这些都意味着什么呢?实验很费工夫,以上我展示的这些实验都需要下很大功夫才能得到些许答案。但它们也不是全面的,我们不可能对恐怖谷的各个方面都有全面了解。我们实际上并不知道,要多逼真的效果才能走出恐怖谷,或者是要离真实有多远才能爬上恐怖谷的另一侧。当然,我们可以通过视频片段和种种实验明白,恐怖谷是客观存在的,混杂的信息引领我们进入恐怖谷,而且我们对于细微的脸部表情有很高的敏感性。


以上就是我一直坚持在研究的问题以及迄今为止的研究成果。感谢各位!