影像沙龙

沙龙纪实 | 内容生产技术与新内容需求



导语

一些娱乐内容的技术趋势为互联网化,如互动、高参与度直播快速制作等,还有实时渲染、动作捕捉、表情捕捉、实时摄影机跟踪、合成等,离线的工作流会发生变化吗?「周末影像沙龙」是由本中心举办的影像领域产学研交流平台,每周选取一个产业热点作为主题,并邀请业界专家和企业代表进行演讲与交流,旨在为该领域的先进技术、产品和人才提供对接产业的舞台。


                                           

image.png

北京七维视觉科技有限公司CEO 殷元江                                            

   


谢大家,今天特别感谢电影学院和未来影像中心来提供这么一个机会来分享一些技术和内容趋势的一些观点。这个话题有点大,我可能来分享一下我们自己的主营业务和开发的技术产品相关的一些东西。


其实目前这个国内的娱乐内容和娱乐产业,包括国外的整体的娱乐内容和娱乐产业的内容变化是非常丰富的,也是非常日新月异的。同时,新的内容也带来了一些需要服务的内容或者是需要支撑的创新内容的一些形式的技术,并且展现出来一些可能需要的一些技术趋势。


传统的内容形式可以简单的分类成比方说现在大家看到的网络上的、移动网络上的,还有电视和电影院里的这几种场景里面。我们看到的包括网剧、电视剧、电影,包括现在的短视频、然后直播、然后包括秀场、包括综艺节目,包括以前的各种各样的比方说气象节目、新闻类节目等等访谈类节目都有。然后包括可能新的一些包括VR、IR这类的这种内容,包括体育、演唱会等等,这些都是大家耳熟能详和能感知到。以前的综艺节目可能十年以前的和现在的也不太一样,可能从微信开始普及了之后大家在看很多综艺节目的时候都会有很强的直播和互动的性质在里面,也有很强的参与感。


在整体宏观的一个娱乐内容的基础趋势上,我自己归纳的一些点是它整个无论是哪一种的,无论是电影、电视剧、网剧、包括综艺节目等等这些内容形式、这些内容形式本身,它们都有一个趋势,趋势就是,有几个趋势,一个是要互联网化互联网化有几个属性,一个是互动性、高参与度、然后包括新的实时的直播,然后实时的互动,实时的交互,让你有一个非常实时的参与感。


image.png

沙龙现场


另外一块就是针对无论是哪一类内容,原始的内容包括一些拍摄、采集正常的,那无论是这种实行的内容采集还是新剧内容的生成都讲究一个快速的制作和快速的生成。所以在快速生成和快速制作过程中又有一个很重要的一些趋势,就是在以前的一些离线的这种流程里面逐渐的很多都会变成实时的,包括渲染比方说实时的渲染,包括比方说动作捕捉、表情捕捉


然后,以前在综艺节目也好,或者是电影、电视剧也好,也涉及到一些这种特效的叠加或者合成,里边当时也有以前离线的摄影机的反求和跟踪的软件,离线的流程。实际上现在可以做到实时的,实时的摄影机的跟踪、实时的合成、实时的抠像等等。


关于内容本身的生产流程是否会发生变化,针对这种快速制作的属性有几个趋势,一个是引擎,娱乐内容刚才说的是除了游戏之外的。以前游戏引擎比方说在2010年的时候大家游戏本身只是用来制作游戏,随着从2010年以后有一些这种早期的探路者是在做这种实时渲染引擎,是除了游戏之外能做些别的,能做很多事情。就是很多人在做很多垂直商业应用,比方说用游戏引擎来做模拟航身,来做这种行业的模拟培训,也有做专业的模拟器,这不是一个什么新的事情。


在除游戏之外的泛娱乐的内容里边,次时代的实时渲染引擎会不会带来内容工作流的变化呢?特别是在最近的过去的从2010年到比方说2017年,每一年的游戏引擎虽然在计算机图形学这块,没有说是特别大的惊天动地的变化,但每一年都会给我们带来一些渲染效果上的提升和一些比方说新奇的一些点,在实时引擎这一块。比方说前几年的物理PBRT的这种物理属性的材质,包括这个SSR这种空间的这种反射,SSCO等等的这些对一些简单属性的处理。包括整个实时引擎的抗锯齿和实时性都在让实时渲染的CG的画面和结果逼近于离线的这种结果,离线渲染中渲染的结果。


另外一点就是不是所有的离线的流程和所有的离线的CG生成的效果都可以被实时的效果来取代。比方说有一些特殊的比较复杂的破坏、爆炸或者是比较复杂或者真实感超强的一些流体的结算或者非常复杂的布料的撕裂。实时引擎可以做到一定的程度,但是同时它还是需要离线的一个工作流。


在中国大部分的工作室,或者是做电影特效的这种后期公司,或者制作公司,大部分其实之前也都是在沿用着本地渲染农场,或者IDC机房的这种形式。自己搭建一套整个的纳什系统和整个的渲染服务器,后面跑着自己的管线。


云渲染特别是在国外在美国,它本身在技术代关上有比国内好得多的一个条件,所以很多的国外知名的工作室已经去掉了离线渲染农场的流程,基本都变向了云渲染。很多电影包括很有名的VR短片《Help》,谷歌投资和林诣彬合作的《Help》VR短片。


他们基本上绝大部分已经是实时渲染和云渲染,绝大部分形式都在用云端的渲染。在自己本地或农场离线的趋势下,已经非常小了。那这一块会不会成为中国的一个趋势,就是在中国市场里面会不会把离线的工作流变成一部分实时渲染再加上一部分云渲染,这样的话提高效率、节省时间、节省成本。然后也能够加速、快速的在同等时间内生产更多的内容。


image.png


另外,就在于娱乐的内容除了刚才说的比方说本身的制作流和本身的性质上基础上直播、互动、高参与度的这种变化,它就是在比方说在2014到2015年开始的一个新的概念,就是这个概念最近有点冷,但我觉得冷有点冷过了这个事情,就是ARVR。IRVR本质的它会不会成为现有内容之外的一种新的这个内容形式,它本身终极内容形式是什么,是不是只是全景视频?我觉得不是。


在现有的,之前出的,比方说大家在看的,之前看内容的时候目前大部分人看的都是电视,电影的大屏、手机的屏幕,电脑的屏幕,VR或者AR带到人眼前的这种除了是一块屏之外,除了能转动之外,现在今年国际上比方说科技巨头或行业巨头,他们在做的我管它叫做无论是AR、VR还是什么R这种,它们有一个特别的特性就是头衔都会必带6自由度的头衔,代表头衔本身它自己不再是只是一个定向能看一个球面的这种形式,或者只是简单的体验一下,而是说你可以在一个虚拟的空间里或者是可以在一个真实的空间里来走动,并能跟踪出来。代表着什么呢?内容要有空间感要有体积感。就代表着全景视频只是非常早期的一种没有合适、高质量内容的一种短暂的形式,或者是一种基础的形式。它会存在有些内容是适合这种形势的。


真正的比如说一种高沉浸感,高参与感和这种体验感的可能是体积视频,也就是带有空间位置信息的视频。那可能就不再是以前说的HR64、HR65所编码传输的视频,也不是以前的这种视频格式。那它可能就是编成了带着体积信息同时带着颜色信息的这种形势。我称之为这种内容的一种新的技术形式或者是这种媒体形式。这一块举几个例子一点一点说,娱乐内容的一个比方说互联网化或互动、高参与度和直播。


因为七维本身我可以简单的给大家介绍一下,最早这个团队是从2012年开始建立的,我在最早的时候一直在加拿大,就媒体娱乐分布来做开发公司,在2011年左右回国,在2012年的时候七维这个团队组建。我们所做的事情其实是比方说针对不同的内容形式,针对不同的市场形势提供的是生成工具,并且都是偏向实时的生成工具。


我们之前也可以举几个例子,比方说大家如果有印象在2012年的时候电视上第一次出现虚拟的球员和主持人的互动,增强现实的球场,数据,还有球员在豪门盛宴欧洲杯的时候直播里面的互动,从那个时候开始这个七维是第一个提供了这种实现,在直播里实时的来互动。我们是把次日带的渲染引擎跟直播和视频结合在一起的国内的第一家公司。


然后另外在后来的比方说世界杯、春晚很多增强现实,也有我们很多的技术和产品,另外在2014年的VR的时候我们提出了一个针对全景和VR视频的一个实时的解决方案,可以实时的拼接和实时的直播和输出这种VR这种全景的内容和带有深度信息的内容。


同时七维还有一些针对其他的这种CG和实时视频的处理的一些能力。举几个简单的例子,比如说互联网化的娱乐内容,它强调的是一个高互动性、高参与度,并且比方说实时直播的一种形式。


image.png

image.png


这个是七维以前做的一些东西。这个是以前爱奇艺直播的一个秀场类节目,它举的一个简单的例子是我们杂合了两个蓝棚、两个蓝箱,然后是两个分离不同的。它是一个秀场类的综艺节目,一个网综。当时的节目主持人是伊能静,形式网络相亲。就是女嘉宾是没有见过任何一个男嘉宾,它分成两个不同的房间,它们是两个不同的蓝棚。


女嘉宾在一个房间里和主持人在一起,有四个男嘉宾在另外一个房间里面,但是我们实时的给它合成成一个虚拟的空间。并且相当于这么一个虚拟的空间,上面做的是一个女嘉宾,下边是四个男嘉宾,同时,女神是完全通过网友的评论和网友的实时的互动来鉴别和甄选她到底要和谁来约会、来和谁走到一起。相当于一个纯粹直播网络相亲节目,然后参与度很高,也很有意思的一档直播网络相亲节目。相当于盲选,就完全基于网络的评论的这个形式。


当时实现是有一个整出的摄影机的跟踪,我们一共有很多的摄影机的机位,有六个摄影机的机位,有三脚架的,有很多的不同的机位,有两个蓝箱,合成成一个统一的一个空间里面,然后做六个摄影机的实时的摄影机的跟踪,不只包含了它的六自由度里的一个空间里SIZ的跟踪,也包含了它的镜头的变化,FOV的镜头开角、机变等等。


同时,实时合成的场景也包含了前景、后景和多层的场景,因为两个房间合在一起其实就分了很多层。同时在男嘉宾身上又有标志在他身上的所谓的tab标签,这个标签是爱奇艺从微博上或从互动自己的网页上采集过来的,这是前年了,用户对男嘉宾某一个人的评论,然后很多台摄影机可以通过去,比如说被PK掉的就直接失败了,下去了,这些都是低延迟的实时直播和互动的环境下来实现的。可能会选择出来让人意想不到的组合。


另外,比方说针对实时渲染、动作捕捉、和表情捕捉,并且快速制作这一块。快速制作刚才也说了,应用新的次时代渲染引擎的作用,现在市面上最好的几个次时代渲染引擎包括了虚幻、Unigine、Crytek引擎等,包括Unity在5.0以后的效果其实也是很不错的。这一块的这些引擎他们各家其实也开始重视除了游戏之外的市场,但是他们各自的市场占有率不一样,他们对他们来说娱乐影视内容这一块是能不能用引擎来批量的制作,来成规模的快速的制作,这是一个值得尝试的事情,所以纷纷每家引擎都有了新的动作。


我相信各家引擎在介绍自己的技术的时候也都会讲到。以前实时引擎无法实时演算的一些复杂的流体,可以从一些第三方的软件里面比方说viewflow里面导出,它可以实现比较复杂的布料,比较复杂的流体。实现演算好了导入到实时的引擎里面来重新播放,也比方说在它在管线上几乎现在所有的引擎也都支持了ESR。输出每一帧ESR文件的时候代表着ESR代表着你可以进入到后期管线里面,因为它分层你可以进到任何一个你熟悉的后期的离线的这种工作流里面。你可以到处ESR序列阵。那代表着非常方便的可以衔接起来以前的后期的流程。


image.png

沙龙现场 


但同时它大量的实时渲染的内容。现在这几个引擎的渲染能力都是相当不错的,在先期的素材内容和比方说场景、灯光、配置、场景里面都制作的比较精良的情况下,那它实时出的每一帧的画面可以出到很高的分辨率,也可以出到很逼真的一个效果,那可以进行很方便、很快速的一个生产和制作。大大的减少了你以前需要等待,需要在本地渲染,或者用公司排队用公司的渲染农场的不同的节点来渲染的这么一个过程。


当然它不能解决所有的问题。假设说一个简单的表情捕捉,一会儿我也会说到,举一个例子,比方说我们七维的一个小的产品,给大家看一个简单的一个视频demo。一个简单的实时的表情捕捉,这是七维,七维的产品系列基本上都叫VI什么,这是VI face。这块你可以选择一个普通的摄像头,也可以选择外接的SDI或者HDMI的一个输入,可以实现实时的表情捕捉,和一张照片上的人脸生成,也可以导入一段视频,这段视频,导入一段视频也可以驱动一个角色的脸(视频观看戳这里)。


我们可以实时的选择这个是blendshape一个的一个三维模型。你可以是史莱克,也可以是任何一个虚拟动画角色。我们同时支持了眼球的跟踪表情的跟踪。如果大家了解blendshape的话,我们可以支持到72个blendshape我们也可以调整24、36、48、72等等。这边也可以导入其他的模型。比方打开一个摄像机拍一张照片,等待大概5秒我们可以通过一张照片重建出来一个avatar,这一块可以用在游戏制作,当然没有头发,头发现在重建不了,但是大家可以看到非常方便的重建一个比较像本人,不是完全像本人的一个avatar。然后非常方便的可以记录直播和输出出一个虚拟的偶像或者是驱动一个虚拟的偶像等等。


刚才说到最高级别的,比如说这是对网络直播级别我觉得目前的效果我们的技术能力基本上是可以达到这个样子的。


我们同时把这些东西汇总和接入到引擎的时候可以形成一种快速的工作流,包括实时的设计跟踪,实时的设计跟踪、实时的表情,实时的身体,实时的手,那都有很多很多组合,和很多方便和简单的这种方式现在。目前来说这些都是在过去的这几年里面很多技术已经不是什么新的技术了,这是导出的一段小的视频,你可以用一个软件可以很快速的制作一个小的表情的动画。


在动画生产以及离线的CG生产,还有真人加CG实景加特效的生产或者滤箱、滤棚或者是这种网剧制作里面,现在很多的设计跟踪和实时渲染引擎以及这种表情捕捉动作捕捉等等,这一切的工作串联在一起已经是可以形成一个相对来说新的一个工作流,然后能够大大的减少离线和后期的流程。当然有一部分可能还是需要离线和后期,但是逐渐的在随着制作的工具的越来越精良化,越来越精准化的时候,最终我觉得这个技术的发展会达到一个不需要离线渲染,不需要……总是会有办法把精良的离线的办法把它变成实时的一个手段和时间。


同时,我们有一些简单的一些动画生产。2015年的春晚里面如果大家有印象的话有一个当时春晚直播里面有一只羊羊,那只羊羊我们来提供的增强现实和制作和整个的直播的这么一个增强现实里的技术架构和方案。


这是几年以前,这是2015年的时候我们也是给一些动画公司也演示了一些实时的虚拟摄像机,当时VCS还没有出来,我们可以自己搭建一个简易的VCS或者任何一个红外的一个形式来实时的合成,实时的来制作一些简单的一些动画生产的流程和视频。



VCS 动画生产


特别是在对这种比方说Q版一点的,这种电视级别的、网剧级别的,那完全可以做到大部分的镜头大部分的画面都可以做到,包括表情都可以做到这种实时的来合成,实时的来制作,包括互动,演员和虚拟角色都可以实时的来互动。再举一个例子,这个是在另外一个节目,这是浙江卫视的《绿茵继承者》这是一个真人秀,真人秀是在海外拍摄的,它不是一个直播节目,它是一个离线节目,但是整个的离线流程是实时来制作的。


image.pngimage.png

image.png


相当于,大家可以看到,是因为我们另外一个产品线,用作实时的节目制作,现在扩展会用来做节目制作,比方说新闻类的,访谈类的,天气类的,也包括影视类、真人秀类,等等,等范类型的这种节目。它可以在大屏幕后面,可以在8K、12K的大屏幕后面,也可以在投影后面,也可以增加现实的,也可以绿箱、蓝箱里面合成的。比方说在《绿茵继承者》这个节目里面是整个的一个拍摄组是在西班牙、意大利、德国实拍然后实时合成,然后实时的快速的编辑,然后它基本上积累一两集、两三集就在浙江卫视每周一集每周一集的这么一个来播出,一个季播节目大概十几期。