新闻资讯 人物专栏

ICEVE精选 | 杨睿刚-用3D视觉探索内容生成的新领域



导语

本文是由未来影像高精尖创新中心举办的ICEVE2017(北京国际先进影像大会暨展览会)的精华演讲等整理而成的系列专题文章,本系列内容涵盖专家专访、大会报道、行业纪实等,致力于梳理和提炼ICEVE大会的精华内容并传播给行业和大众。



image.png

杨睿刚 百度计算机视觉首席科学家、美国肯塔基大学终身教授  


大家好,我介绍一下我百度的工作。

 

我现在实际上有两重身份。我以前也在美国当老师,都在学术界工作。那时候做了很多的三维重建的工作,和晶怡、权老师都是在一个圈子里的,但是在来百度以后,工作性质有一些变化,做的是和机器学习相关的一些东西,特别是一些语义学的东西。所以我想,刚才晶怡也说了三维重建在下面应该有很多,很重要的一个就是3D语义。今天我就以百度的身份来介绍一下。

 

百度在AI里面的一些研究很多事跟语义学有关,先给大家看两个数字:18年和4年。什么意思呢?这个实际上在计算机界就是说,在百度看来我们正在处在非常变化的一个时代。大家以前用电脑的时候都是带着上网的电脑,然后后来有了智能手机,然后我们就从PC的时代进入了移动的时代,花了18年时间。

 

现在至少在百度认为我们已经进入了一个AI时代,比如说在中国我们可以看到很多人都喜欢拿着手机,对着手机说话,这里面实际上包含着很多AI的元素在里面,比如说机器翻译等。

 

我在这里介绍一下百度在人工智能方面的投入,或者说在人工智能上的生态系统,我们称之为ABC的这样一个战略。A是算法,B是大数据,C是计算。这个是基础层面,在这个基础层面上有很多认知的,我们称之为感知的一些研究,包括音频、图像和视频。

 

还有一个跟今天的主题特别相关的就是AR和VR。在这个层次上面,我们有个认知层,就是说我得到图片了,得到视频了,或者得到语音了,我下面怎么把这些转化成为知识?那这里就要NLP、自然语言处理、知识图谱。其中也包括一个用户画像(User Profile),就是对大家的,个人的一个用户画像。

 

在最上面我们有一个AI开发的平台,很多执行AI的能力我们都在上面开放出来,跟今天在座的各位很有关系的就是AR/VR。我们实际上有个AR/VR的kit, 在ai.baidu.com上面已经开放出来了,在这个平台上面我们构筑了我们百度自己的应用,包括智能交互系统DuerOS, search of course,还有自动驾驶等。

 

下面我用这个示例展示一下在百度研究院里面做的一些工作,我们有做三维视觉的,看视频分析,最重要的应用就是做自动驾驶。还有一个AR/VR,刚才看了晶怡的演示,我们这还是平面的,晶怡的已经转化成为三维的。我们还做了些我们比较骄傲的就是深度学习的一个平台,这个是PaddlePaddle, 恐怕是在国内也是唯一一家中国自主开发的自主产权的深度学习的平台。


image.png


我加入百度时间不多,大概只有一年左右,让我感觉跟学术界一个最大的区别就是这个量,我们在学术界可以说我们可以处理一万张图片,比如说我们一段视频,一段学术界的文章,被人引用一千次,一万次,都是非常高。但是这个规模才只到工业界的百分之一。举例子来说,我们做图像分类,这图像分类,我们内部用的数据集达到上亿张,为了分类可以做八万个物体的分类。为了训练这八万个物体的分类,我们用了将近一亿张图片来做这个训练。

 

下面简单介绍一下一些比较有意思的工作,一个是人脸识别,人脸识别大家估计也比较了解。基本有三步,第一步是从人脸的检测到匹配,最后到搜索,这里人脸识别我要给大家举一个例子,大家对刷脸,认证估计都比较清楚。但是我个人觉得刷新了我个人对AI和深度学习认识的是这么一张图片。


image.png


我们现在是可以把跨年龄的识别也做到非常好。这是我自己初中的一个照片,我想看大家有没有谁能认出我到底在哪儿?


image.png


比较黑,我就介绍一下吧。这是我的半年前的照片,那是我大约20年前的照片。我们的人脸识别平台能够在里面把我,一次就把我找出来。


image.png


我个人是做计算机视觉的,也对深度学习和人脸识别有一定基础,但是这样的一个性能也是打破了我对AI能力的预期,这个实际上是有海量数据的支持。这个数据库在用来这样一个分类器这样一个系统的话,我们大约用了有八千万张人脸的图像来训练这个系统。

 

下面我来说说我们百度在AI上面的一些工作,大家可能知道百度最大的收入来自于广告。在AR/VR上面,我们在百度的一些商务上做讨论的时候,最重要的就是现在杀手级的AR软件有多少个?

 

我们后来发现实际上是拿来做广告,广告是我们所有的百度搜索里面第一个自给自足部门,什么叫自给自足部门? 就是说他们每年的收入足以养活我们这样一个AR团队,这个团队大约有50到60个人,也有很多国内的朋友,现在这些AR的功能都已经整合到我们的手机百度上去了。

 

给大家来做一个演示,这个是我们和兵马俑合作的一个项目。在兵马俑门票上手机百度,扫描一下就可以把这兵马俑的颜色恢复出来,实际上我们还有一个更高级的版本,就是很刚才晶怡一样,我们可以让这个兵马俑动起来。但是文物保护局的人说不行,这个兵马俑就是跪着的,不能动。


媒体1_20180110165245.gif


这个是我们最近刚刚发布的一个新的功能,叫做semantic slam,语义的slam。这里我先来班门弄斧一下,什么是slam, 权龙老师是这里的专家。slam就是叫做即时定位与地图构建。最简单就是如果对一个场景,如果我可以用一个相机,然后对着相机进行扫描,SLAM同时对我的相机进行一个定位。也把三维场景进行一个重建,它同时做一个重建的一个功能。但是我们在SLAM上加了一些语义,不光把这个三维场景和照相机重建出来,还把这到底是什么样的物体,用我们的物体识别技术把它识别出来。

 

这样有什么好处呢?我可以根据不同的语义做出不同的反应,比如说它可以发现这是一个绿植。我们可以知道这是什么样的绿植,上次浇水什么时候浇的等等。我们也在上面加入了手势识别功能,那个同学把手这么一挥,通过这个就自动进行了播放,因为我们有这个语义信息,我们也有3D地图,所以我们能够让这些虚拟人物在这个场景里面做一下交互。

 

通过这个语义 SLAM, 将来看着个媒体,看书的经历可能就不会只限于文字了,这本书主要表达了人工智能为主题的新技术革命已经到来。讲述了人工智能半个多世纪以来的发展变迁。将来大家看书,不光可以看书,还可以问书,这本书的作者是谁?这本书的主要作者是李彦宏。当然了,所以说从这段视频来看,加上语义,把语义和3D vision 结合在一起的话,把语义就是语义和三维的信息结合在一起,会给大家带来非常新的一些体验。

 

下面我介绍一下在百度和我的团队非常相关的一些工作,就是自动驾驶。百度最近做的一件事情,我们有一个称之为Apollo Project,就是我们自动驾驶的开源平台(Open-SourcePlatform for Autonomous Driving) ,就像Android一样,我们把自动驾驶做了一个开源的工作,这样的话每个人都可以通过下载我们的软件,可以把一辆车改成一辆自动的车。

 

image.png


这里我给大家看一下,这是我们的无人驾驶车,它看到的场景,它看到的就是激光雷达。我们的无人驾驶主要还是用激光雷达,这是激光雷达看到的三维场景。这里又有很多语义的处理要素在里面。我们必须从这些激光雷达的点云里面很好的分析出哪些是道路,哪些是行人,哪些是路障,哪里是信号灯等等。

 

媒体2_20180110171037.gif



我们最近在百度刚开始的和无人驾驶相关的工作是机器人,这里有一些商务业务,实际上在中国机器人还是有很多细分的场景。大家可以看到对2020年我们对机器人有多大的市场有一个估计。你可以看到,最多的大家可以买到的就是扫地机器人。

 

三维视图在机器人里面也有很多的用途,第一个首先是导航, 就是怎么样让一个机器人在一个场景里面自动行走。还有一个是地图, 就是怎样把这个场景重建出来,让我知道A到B该怎么样走,还有一个是避障,就是怎样有这个避障的功能。大家如果要做机器人的话,百度也有一个开放的机器平台。其中包括开源的硬件和开源的软件,比如说我这里给大家演示一个视频。


image.png


像这里我们集中了多种技术,一个是SLAM,另一个是OCR, 光符识别。这样的话我们的视觉传感器在一个很大的商场里面,我们可以知道到底我们在哪儿,我们也可以知道它现在面对的店到底是哪一家店,我们做了一个多重的数据融合的一个工作。

 

这里面有些情况下对SLAM实际上是非常困难的,比如说看到一堵白墙,那么这堵白墙到底是哪里的白墙。这种情况下,只能通过OCR或者通过IMU的其它的一些传感器呢才能准确的把位置找出来。

 

现在实际上在人工智能方面有很多的工作是要把很多工作从云上到端上,就是从云计算到边缘计算,那这个对很多应用,特别是对机器人,自动驾驶这个是非常重要,因为这些都需要。AR/VR其实也是非常重要,AR/VR我们觉得对语义的理解必须在端上,必须在手机上才能应用。

 

要不然的话,我一张图,我希望我这张图里面到底有一些物体,是个人,还是辆车等等。如果说上传到云上再回来,这个来回时间至少就几百毫秒了这个交互的体验会非常糟糕。所以我个人觉得,我们在百度也会放很多力,就是把我们的能力,很多在云上的能力放在硬件上,做一个硬件上的加速,变成一个端上的能力。

 

这里就是一个例子,如何把我们的立体视觉的能力通过FPGA和通过ARM把它加速,达到实时效果,这里我给大家看一下,用这个双目这个相机。然后在这个屏幕的右上角可以看到,可能不是很清楚,就是它把那个三维技术进行了一下重建。然后通过这个三维,对这个物体场景做了一个非常简单的二分类。


媒体3_20180110171957.gif

 

把可过的和不可过的地方做了一下区分,蓝颜色代表机器人走不过去的,白颜色代表路面,代表机器人可以行走的地方。现在这样估计就比较好一些,最后我想说的就是我们这里有两个平台:apollo.auto和ai.baidu.com。这里我说的很的能力呢,大家都可以到这里去下载软件api, sdk尝试一下。特别是跟今天的AR/VR相关的,就是我刚才说的语义 SLAM, 刚才说那些物体的重建和跟踪,在这个ai.baidu.com里我们都已经开放出来了。

 

我今天的讲座就到这里。谢谢大家。