实录:余凯、颜水成、梅涛、张兆翔、山世光同台讨论 “深度学习的能与不能”

来源:互联网 发布:asp公司网站源码 编辑:程序博客网 时间:2024/04/29 21:12

点击上方“深度学习大讲堂”可订阅哦!


编者按:过去的几年,是深度学习在人工智能各个领域大放异彩的几年,在图像识别、语音识别、自然语言处理、乃至无人驾驶等领域,深度学习都取得了突破性进展。可以说,我们见识了深度学习在大数据加持下的各种“能”,然而,如何在小数据、甚至零数据的场景下,利用半监督学习、乃至无监督学习的方式,来赋予机器智慧,仍无定论。为此,中科视拓在周年庆典上,邀请到了计算机视觉领域的五位专家,一起探讨深度学习的能力边界。大讲堂在文末特别提供现场版视频链接。



2017年10月10日,中科视拓在北京国贸柏悦酒店举办周年庆典,并宣布获得安赐资本领投的数千万Pre-A轮融资。在庆典上,中科视拓举办了一个圆桌论坛:深度学习的能与不能。

 

机器之心创始人CEO赵云峰作为圆桌论坛主持,受邀的嘉宾有地平线机器人创始人、机器学习专家余凯博士,360副总裁、人工智能研究院院长颜水成教授,微软资深研究员梅涛博士,中科院自动化所张兆翔研究员,以及中科视拓董事长山世光研究员。以下是现场实录:


深度学习的能与不能


    赵云峰(主持人):非常荣幸能作为这个论坛的主持人,首先要讨论的是:深度学习的能与不能。过去几年,我们见证了深度学习的各种“能”,那么,有哪些问题是深度学习解决起来不好,或者不够优雅的呢?


    颜水成:“深度学习的能与不能”不一定局限于视觉方面,比如针对 “类别的增量学习”问题,现在的解决方法不是特别好,也就是说以前有一个模型,能区分100类,突然多了一类,我们现在的这些深度学习的模型并没有一个很好的机制,可以快速地、便捷地从100类拓展到101类,这是现今深度学习的一个局限。

 

    梅涛:“解决”这个词对我来说,意味着一个很重大的承诺,所以我一般来说都不会说这个问题解决了,因为我相信在计算机视觉领域,有很多问题一直在做但依旧没有解决。如果说所有的基于深度学习的问题都是一个概念问题,很难判定是0或者1,所以说解决与否,可能往往依赖于场景。比如对于内容创作,与美学、心理学相关的研究工作,深度学习还很难和专业人士媲美。


    张兆翔:首先,深度学习更擅于基于数据驱动的映射问题,而事实上无论在视觉领域还是其他人工智能领域,很多问题并不能单纯地转化为映射问题。这个时候深度学习在应用上就往往存在局限性。


    其次,深度学习解决问题时,过度依赖于样本,可解释性不高。通过构建神经网络架构来实现,我们不清楚深度学习具体如何解决问题、如何解释解决问题的过程。此外,深度学习有一些和统计学习方法相同的顽疾:我们总能设计对抗样本使得深度学习完全失败,体现了其不具有完备性。

 

    尽管这两个问题一直没有解决,但是也并不影响深度学习在特定场景,特定条件下的应用。深度学习依旧可以在多个问题上服务于客户。


    山世光:我们有一个客户,做了一个巡逻机器人放在小区里。开始时,业主和物业觉得这个巡逻机器人有趣,但后来觉得它没用,不能解决他们的问题。他们就想这东西能干什么,然后提出了一个痛点需求:小区里面的猫屎、狗屎,如果没有被及时清理,会影响环境且容易被踩到。机器人能不能通过巡逻,找到狗屎,反馈给物业,让保洁快速清理掉?


    以这样一个问题为例,如果我们用传统的非深度学习的方法去做的话,可能要搜集几百、几千张狗屎的照片,然后人工地去搜集它的颜色、形状、以及纹理特征,然后去调节分类器。我们过去做人脸检测、行人检测,车辆检测都是这么做的,可能需要十几年的时间才调出来一个还不错的模型。但是深度学习模型一两个月就可以解决这个问题:我们先用平台去收集上万张狗屎的照片,也许我们再花上一两个星期的时间,调调模型然后交给机器去训练就好了,大概一两个月也许就可以部署这样一个系统。

 

    对于大数据来说这够了,但和人相比还是不够。如果一个小孩踩了一次狗屎,基本上就不会踩第二次,也就意味着他基本上用一个样本,几秒钟的时间就学完了狗屎检测的问题。

 

    再回到刚才水成说的,针对这样一个新类别的识别或者检测问题,深度学习目前很难解决。但或许学术界会有新的办法解决这个难题,只需让我们在互联网找三五张狗屎照片,使用这个办法的机器就可以自动选择模型,自动调参及后期优化,之后的一个星期就可以部署系统,解决问题。

 

    余凯:我觉得大家对深度学习可能还是有一些过高的认识。它实际上离“智能”非常遥远,顺着这个狗屎的例子,我认为深度学习其实本身是进行大量的数据训练,实际上是一个很傻的事情。

 

    第一点,深度学习其实缺乏一个东西,就是“常识”。比如说杯子不会悬在空中,它一定是在一个平面上;狗屎一般不会在墙上,因为狗一般不会跑到墙上去拉屎,这些“常识”使得在不需要很多样本的情况下,我们的“智能”其实能做到很精准。比如说做行人检测,行人肯定不会在树上,如果你知道这一片是树的话,你会觉得在那边做行人检测很奇怪。天上也不会飞汽车,所以也不会在天上去检测汽车。但是人其实都有“常识”,它使得你并不需要那么多的样本,就可以做很准确的一些判断。

 

    第二点就谈到视觉本身。在过去的差不多七年的时间里面,视觉本身其实就是基于大数据的针对静态图片的训练,典型的就是基于ImageNet的训练,它其实大大地推动了整个行业向前发展;另外一方面,也把大家给推到一个相对来讲尴尬的位置,比如十年以后我们回头看现在,它可能是一个错误的方向。

 

    因为人从来不会从静态的图片里面学习,人实际上是一个移动智能体,在整个移动过程中,他的场景随着三维空间和时间的变换具有连续性。这个连续性里面反映了一些结构,比如说近大远小以及透视的关系,这些东西实际上都帮助我们去理解场景和目标。所以基于静态图片的识别肯定是错误的方向,而把机器人学和计算机视觉结合在一起,把三维跟语义结合在一起才是正确的方向,这是第二点。

 

    第三点,基于bounding box的检测识别方法其实是很错误的,因为人从来不会肤浅地给定bounding box,人类一定清晰知道物体的边界、前景和后景信息。所以从bounding box级别到像素级别的过渡,一定是正确的方向。

 

    当然,我觉得还有很多方向,但是归结为一点就是,我们需要去纠正和面对的事情还有很多,创新其实才刚刚开始。而很多很多我们曾经认为是对的、我们曾经取得正确的、成功的经验有可能是错误的,而未来可以去做的正确的事情其实更多,或者说创新的空间性还很大。


如何解决小数据、无数据的问题?

何实现半监督甚至无监督学习?


    赵云峰:接下来问一个比较具体的问题。深度学习不太擅长解决小数据甚至无数据的问题、实现半监督甚至无监督的学习。那我们可以在哪些方面有新的探索?用哪些新的方法解决这些问题?

 

    颜水成:无论来自计算科学领域,还是来自神经科学领域的研究者,都一直在探寻一个同样的问题——“早期时人脑识别的机制到底是什么样的”。去年的会上大家讨论了可能的一个hypothesis(假设)——人的大脑有两套机制,一套机制是非参的,一套机制是参数的。参数这套机制可以用类似深度学习的参数方法去模拟。另一套是非参的机制,我们在给定一个样本时,可能并不能立即给出模型。比如刚才狗屎的例子,如果说以前从来没有见过,现在见了一次狗屎,可能第二次、第三次见到狗屎的时候,并不是脑子里面有个模型,而是用已经见过的狗屎去做匹配。当你见的狗屎的数目足够多了之后,模型就可以从中学习出来,就是从非参转化到参数化。

 

    也许我们思考这个问题的时候,从开始就做小样本的学习本身是错误的。因为人还有一个非参数的机制,一个数据积累的过程,我们认为形成模型是需要大数据慢慢积累的。并不是拿到样本即可立即得到一个模型。大家知道现在GAN可以非常好地去解释小样本学习的过程,比如你有一些类型的样本和一套生成机制,你可以从一个面生成出各个面的表示。比如说你看到了一次狗屎,但是你已看了很多牛粪,牛粪这个模型有了,那么可能脑袋里的GAN模型会模拟牛粪的生成机制,生成很多样本,这些样本再去指导人去识别新的狗屎。就是说有这么一个机制,一种是非参的,一种类似于GAN,已经生成一个模型了,一个新的样本利用相似的类别,会生成出很多样本出来。总的来说,最终的模型生成机制可能还是用大数据学出来的,并不是有一个样本立即能得到一个模型。

 

    梅涛:我同意水成的观点,我始终相信学习还是通过大数据来学的。

 

    小样本学习,现在有zero-shot learning,在学术上可以探讨,但是这样的技术很难应用到真实场景里。

 

    我们在真实场景中也遇到过这样的问题,微软有很多数据,至于小样本,我们会在大数据库里面做一些数据的清洗,包括数据的整理,数据的排序这方面工作。最后还是把这个问题归结到基于大量样本学习的问题。

 

    但在学术层面来说,我们对人脑认知物体的过程还是不太熟悉,泛化能力还不够清晰,所以我觉得这方面还是要跟神经科学结合起来进行研究,现在的zero-shot learning,one-shot learning解决实际问题的能力还有限。

 

    张兆翔:小样本学习是人类学习的一个特长。但是即便是人类,其本质上的学习也是基于大样本的。因为人类从原始人到现在的进化过程中,有很多很多的观察数据都被刻画到基因中了,或者在进化过程中固化在人脑中。因此在现在社会当中,爸爸妈妈告诉孩子这是狗屎,其实样本是从猩猩、猴子踩到狗屎的时候开始采集的,所以说,人类的举一反三依旧是基于大数据。

 

    因此归根到底,其实也是一个数据与知识的转化问题。很多时候我们讲学术,说人工智能应该走向数据与知识的结合。如果我们能够结合一些知识,显然能够从完全由数据驱动转化为一些小样本驱动。

 

    另一个我觉得值得尝试的方面,就是前面几位提到的:大数据的学习仍非常重要。

 

    我们知道现在很多时候会用到因果分析。不同的果是由一个原因导致的,比如说狗屎,还有狗屎旁边撒的一泡尿,这是两个模态、两种数据,却都因“狗的操作”这个原因导致,因此狗屎和狗屎旁的尿之间是有关系的。这种关系可以帮助我们构建映射关系。很多时候一些共生的模态,可以帮助我们做很多很多事,左眼可以看到东西,右眼也可以看到东西,你眼睛看到东西,同时你的耳朵也听到东西,这些共生的模态帮助人在处理信息时,减少标注数据,通过尽可能少的样本去达到一些更好的学习目的,这些都是学术界做的一些有意义的尝试,也体现了深度学习的研究有很大的挖掘潜力。

 

    山世光: 其实我非常认同刚才水成讲到的两个观点,一个是某种非参数的方式,另外一个是一个参数的模型。

 

    我举一个具体的例子。在人脸识别这个我们做了很多年的领域,这两种方式其实都是有的。在人脸识别这个领域里面,做神经科学和做心理学的人在研究两种不同的人脸识别方式。一种就是我们所谓的陌生人的识别,比如说之前你从来没见过我,给你一张我的照片让你去机场接我;另外一种是去辨认你非常熟悉的人。这两种不同的人在你的大脑里面识别模型其实是不一样的。前者在心理学或者神经科学领域,他们研究的结果更倾向于在你大脑里存了一个照片,因为你其实并没有见过其他更多的信息。当然你也可以举一反三,等会我们说另外一个话题。而对于非常熟悉的人,比如你现在回想你的父母,可能就不再是一个照片,而是有复杂多样的信息,更多音容相貌的信息就加进去了,那可能就变成了一个模型,而不是纯粹的一个照片或者是某种特征。这是一个我们会感觉到差异的地方,一个one-shot问题。

 

    但实际上,在人脸识别领域,我们一直在践行的就是one-shot的问题。比如说今天大家可能在门口看到了我们的人脸识别系统。大多数人没在我们系统里面做过训练,只提供了一张照片,那为什么也可以识别你呢?我们也是用的深度学习。

 

    为什么没有一个人成百上千张的照片也可以识别呢?是因为我们已经对其他的,可能是几十万人或者是上百万人的大量照片去做了学习。我们学的是什么呢?我们是学的如何去区分不同人脸的方法或者模型,这个东西是有推广能力的,它可以推广到我们从来没有见过的人身上。这个人来了之后,虽然他没有在训练集里面,但是我们用另外一百万人学出来的模型,可以非常好的去提取他跟别人有什么不同的特征。这其实已经是一个模型迁移问题,另外一群人的区分模型用到这个人身上去,我想这个就是一个迁移学习的例子。

 

    刚才还提到GAN这样一个方法,我觉得这是个非常重要的事情。人类有举一反三的能力,人看了一张照片之后,你看到他正面的照片,你可能会想他侧面会长什么样,他笑出来是什么样等等。这些东西就是我们举一反三的能力。这个举一反三的能力是基于大数据学出来的,因为我们见过了太多的人,他正面长什么样侧面长什么样也学到了这个模型,那么这个模型可以指导我们去猜测这个人正面是这个样子,那他侧面是什么样,他笑起来又是什么样。

 

    这个问题应该是基于大数据学习的,比如说,当我们这个世界上有一百万类物体需要识别,当我们做到了10000类的时候,也许做10001、10002类的时候就相对比较容易了,因为我们已经有了大量的识别其他物体的经验,利用这个经验,可以用少量数据迁移到其他的问题上去。

 

    余凯:小数据学习和大数据学习,看似是两个很不一样的概念。但是我感觉这两个空间实际存在一个虫洞效应,就是这两件事情有可能是一件事,为什么是一件事?那我举三个例子跟大家解释一下。

 

    第一个是举一反三、想象的能力。《人类简史》这本书中提到,在几十万年前存在人类的多个种群,我们现在胜出的叫智人。从脑容量来衡量,其实智人并不是最聪明的。但是考古学发现,智人群落与被智人打败的其他群落相比有一个很大的不同,就是智人有一个很明显的能力——虚拟化的能力,他会描述并演算虚拟的故事,比如他们会演算这个部落里有一个共同的神灵,以及对这个神灵的描述。一般的猴子只会见到了才相信,但是智人这群猴子对于未见之物也能够虚拟想象。

 

    所以这种想象的能力让人类区别于其他种群。想象一个共同的神灵并且活灵活现他的行为、喜好、性格,这实际上给这个部落造成一个社会准则,让大家按照这个准则去匹配,因此这个种群就越来越强大。这是第一个例子,举一反三,并且想象的能力,就是让人类插上翅膀。

 

    第二个例子是Alphago。一定意义上来讲,今年的Alphago2.0是完全从零的状态开始博弈,没有数据,它完全是左右博弈,去虚拟下无数盘棋。整个程序使用“深度学习+强化学习”,通过不断从虚拟对决里面学习经验,达到一个很强大的能力,会接近棋盘真理。

 

    实际上他是zero data learning,没有用任何人类的历史棋盘对决数据,但是它又是大数据,为什么呢?因为它用很多虚拟的数据来学习,所以想象力使zero data learning和big data learning之间好像有个虫洞效应。实际上它们两个之间距离是非常短的,不是我们想象的差别那么大。

 

    第三个例子,就是关于自动驾驶。因为真正测试一个自动驾驶系统的行为,不是靠这些normal traffic(正常交通行为),而是靠很多边界情况——不正常的交通行为,比如“小孩子突然跑到马路上”。但是不可能用真实的数据,不可能让小孩真的去横闯马路。所以用仿真系统来产生这种情况的数据,用来训练及测试。这个是自动驾驶必须要走的路。

 

    实际上还是用大数据,但是这个数据是通过举一反三、虚拟想象出来的。在未来,“想象的数据”可能会填补数据的缺失所带来的掣肘,用小数据生成出大量数据,使系统不断进化,变得越来越聪明。

 

    “举一反三”不是观测而是计算,不断的举一反三其实是更大计算力的体现。所以我认为,计算力还是会持续推动整个人工智能的发展,在当前时间点,投资在计算力上还是不错的。


人类知识和机器知识有“代沟”么?


    赵云峰:山老师跟我聊到过这样一个问题,人类眼中的知识和机器眼中的知识可能是不太一样的,可能无法对应和转化,因此人类把知识赋予机器时,可能会影响机器效率和效果。对于这样一些问题,各位专家有什么见解吗?

 

    山世光:我再解释一下这个问题。利用深度学习可以学出来一些深度模型,这里面包含很多知识,但是这仅仅是机器可读可理解的,人类其实不太能够理解它。我们也很难把人类经过几千年进化总结出来的知识嵌入到机器中。机器学出来的机器表示,与人类大脑里的知识表示之间有个鸿沟,如果不去跨越这个鸿沟,就很难将人类总结出来的知识,特别是书本里的知识,变成机器可理解、可利用的,很难让机器大规模地像人一样思考,像人一样做更多智能的事情。我也很想听一下大家的观点。

 

    颜水成:一些诸如“common sense(常识)”的概念,其实并没有被深度挖掘。如何去表达、获取常识,以及知识在大脑中的存储方式都是有待发掘的,如果知其方式,那就意味着一个人的常识真的有可能像《超能查派》中一样被抽取出来,然后注入另一个生命体中,从我的角度讲这件事情是不可能完成的。

 

    梅涛:common sense(常识)还是很重要的,我举两个例子。

 

    首先,我们教微软小冰写诗时发现,她写出来的诗有时有较大偏颇或不通顺,其原因就是未考虑到常识。

 

    其次,机器做一些caption问题时会出现明显的语法错误,它没有考虑到事物之间的关联。我们通过人为设计深度学习或者手工特征,是人类帮助设计出来的模型或者特征,而机器是没有任何知识的。人类的知识很复杂,医学常识及医生的专业知识更难表达。举个例子,几年前一些大的互联网公司构建一些通用的知识库,包含很多结点,每个结点代表一个实体,然后实体之间都是有联系的,每个实体都有歧义或者同义,对应的特征语言很丰富。这是一个比较通用的人类知识的表达,它至今还用到很多产品上。

 

    颜水成:“常识”就有点像GAN里面的判别模型,区分是否为真实样本。

 

    比如在image caption里,句子是通过提取特征后利用生成模型生成出来的。假如事先已经有了一个GAN的模型,在训练这个模型的时候,就利用GAN判别句子是由机器生成的还是真实的,在不能区分的时候,就相当于上面那个判别模型——常识。那么这样的话,比如说在这个image caption里面加另外一个loss,这个loss和GAN模型互相作用,这个作用就相当于常识。

 

    梅涛:我理解的“常识”还是基于真实数据学出来的,其实还是有人的知识或数据包含其中。我不是通过GAN,而是通过一些句法,比如词性及主谓宾结构这种“常识”。从道理上讲肯定是生成式的效果更好一点,虽然深度学习翻译出来的解释性可能较差,但是综合来说,后者可能会好,学出来的句式更丰富一些。

 

    余凯:深度学习在80年代末发展起来,马上就沉寂了。90年代贝叶斯网络非常流行。Judea Pearl (图灵奖得主,贝叶斯之父) 写了一本书《Causality:Models,Reasoning,and Inference》,因为这个causality (因果关系) 后来推演出贝叶斯网络。Daphne Koller 把它演绎到关系模式。这个实际上是表达知识的一种方式,知识推理的一个序列框架。

 

    深度学习和贝叶斯网络的结合是一个趋势。举一个自动驾驶的例子,对于“红灯停”这件事情,检测是否为红灯是深度学习的事情,判断要停下来,就是贝叶斯网络的事情。真实场景可能更复杂,重点是知识的推演应该跟信号的理解结合在一起。所以,未来的决策系统一定是结合深度学习和贝叶斯网络网络的。然后,利用一个数学框架去结合从数据中获取的知识和先验知识或者常识。

 

    颜水成:可以用后处理进行矫正,比如做语音识别,下面每个架构有一个inference,上面有一些模型。

 

   山世光:如果打通了,比如做image caption,当发现结果不对时,可能把人类的知识灌进去就会变好。

 

    颜水成:在某种层面上来说,这是因为数据量不足引起的。如果数据量足够,这种低级的错误就不会出现。

 

    梅涛:但是语言具备一定的创造性,很难预见所有的样本。

 

    张兆翔:有一个高考作文题目“假如记忆可以移植”在当时难倒了一批考生。如果知识可以被移植,那一切就太简单了。把人的知识和机器的知识贯穿起来,使得人的知识能够贯穿到机器的模型当中去,使得机器的模型能够利用人的知识,这就跟新一代人工智能规划的混合智能、人机接口息息相关。

 

    梅涛:我有一个问题,从生物学或者医学角度讲,记忆是可以移植的吗?

  

    张兆翔:搞神经科学的小组试图寻找记忆区未果,它好像是分布式存储的。最有名的例子就是小鼠脑区实验,切一点脑区它就找不到迷宫的路了。整个过程,随着脑区的切除,小鼠认知能力逐渐削弱,直到最后完全不认识路。但是并不能证明记忆与脑区的对应关系,知识真的很复杂,知识图谱、概率图模型、贝叶斯网络这些知识描述方法,和人类描述知识的方式肯定不一样。

 

    有一种知识是能够言传身教的,比如父亲教小孩“不要碰插座会触电”;还有一种知识叫“可意会不可言传”,自己都不知道如何将它抽取出来传给另外一个人。

 

    深度学习模型也有这样的问题,它自己知道这个知识但不能抽取显示出来,形成第三方介质一样的东西,然后让另一个深度学习模型看到这个东西后就能够吸取进去,它只能够效仿其他模型的做法。知识如何在机器和人之间传递,确实是一个很重要的问题,值得我们好好研究。我相信真的要研究的话,10年应该是可以的。


现场版视频链接:http://pan.baidu.com/s/1dFjeyYH

该文章属于“深度学习大讲堂”原创,如需要转载,请联系 astaryst。



往期精彩回顾


章国锋:黑暗中的前行--复杂环境下的鲁棒SfM与SLAM | VALSE2017之十五

何晖光:“深度学习类脑吗?”--- 基于视觉信息编解码的深度学习类脑机制研究 | VALSE2017之十四

山世光: 我的Face Zero之梦,写在AlphaGo Zero出世之际

孙剑:如何在公司做好计算机视觉的研究|VALSE2017之十三

梅涛:深度学习敲敲视觉理解中的“钉子”



欢迎关注我们!


深度学习大讲堂是由中科视拓运营的高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!


中科视拓(SeetaTech)将秉持“开源赋能共发展”的合作思路,为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务,帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。


中科视拓目前正在招聘: 人脸识别算法研究员,深度学习算法工程师,GPU研发工程师, C++研发工程师,Python研发工程师,嵌入式视觉研发工程师,运营经理。有兴趣可以发邮件至:hr@seetatech.com,想了解更多可以访问,www.seetatech.com

中科视拓

深度学习大讲堂


点击阅读原文打开中科视拓官方网站


阅读全文
0 0
原创粉丝点击