实录：余凯、颜水成、梅涛、张兆翔、山世光同台讨论 “深度学习的能与不能”

来源：互联网发布：asp公司网站源码编辑：程序博客网时间：2024/04/29 21:12

点击上方“深度学习大讲堂”可订阅哦！

编者按：过去的几年，是深度学习在人工智能各个领域大放异彩的几年，在图像识别、语音识别、自然语言处理、乃至无人驾驶等领域，深度学习都取得了突破性进展。可以说，我们见识了深度学习在大数据加持下的各种“能”，然而，如何在小数据、甚至零数据的场景下，利用半监督学习、乃至无监督学习的方式，来赋予机器智慧，仍无定论。为此，中科视拓在周年庆典上，邀请到了计算机视觉领域的五位专家，一起探讨深度学习的能力边界。大讲堂在文末特别提供现场版视频链接。

2017年10月10日，中科视拓在北京国贸柏悦酒店举办周年庆典，并宣布获得安赐资本领投的数千万Pre-A轮融资。在庆典上，中科视拓举办了一个圆桌论坛：深度学习的能与不能。

机器之心创始人CEO赵云峰作为圆桌论坛主持，受邀的嘉宾有地平线机器人创始人、机器学习专家余凯博士，360副总裁、人工智能研究院院长颜水成教授，微软资深研究员梅涛博士，中科院自动化所张兆翔研究员，以及中科视拓董事长山世光研究员。以下是现场实录：

深度学习的能与不能

赵云峰（主持人）：非常荣幸能作为这个论坛的主持人，首先要讨论的是:深度学习的能与不能。过去几年，我们见证了深度学习的各种“能”，那么，有哪些问题是深度学习解决起来不好，或者不够优雅的呢？

颜水成:“深度学习的能与不能”不一定局限于视觉方面，比如针对 “类别的增量学习”问题，现在的解决方法不是特别好，也就是说以前有一个模型，能区分100类，突然多了一类，我们现在的这些深度学习的模型并没有一个很好的机制，可以快速地、便捷地从100类拓展到101类，这是现今深度学习的一个局限。

梅涛：“解决”这个词对我来说，意味着一个很重大的承诺，所以我一般来说都不会说这个问题解决了，因为我相信在计算机视觉领域，有很多问题一直在做但依旧没有解决。如果说所有的基于深度学习的问题都是一个概念问题，很难判定是0或者1，所以说解决与否，可能往往依赖于场景。比如对于内容创作，与美学、心理学相关的研究工作，深度学习还很难和专业人士媲美。

张兆翔：首先，深度学习更擅于基于数据驱动的映射问题，而事实上无论在视觉领域还是其他人工智能领域，很多问题并不能单纯地转化为映射问题。这个时候深度学习在应用上就往往存在局限性。

其次，深度学习解决问题时，过度依赖于样本，可解释性不高。通过构建神经网络架构来实现，我们不清楚深度学习具体如何解决问题、如何解释解决问题的过程。此外，深度学习有一些和统计学习方法相同的顽疾：我们总能设计对抗样本使得深度学习完全失败，体现了其不具有完备性。

尽管这两个问题一直没有解决，但是也并不影响深度学习在特定场景，特定条件下的应用。深度学习依旧可以在多个问题上服务于客户。

山世光：我们有一个客户，做了一个巡逻机器人放在小区里。开始时，业主和物业觉得这个巡逻机器人有趣，但后来觉得它没用，不能解决他们的问题。他们就想这东西能干什么，然后提出了一个痛点需求:小区里面的猫屎、狗屎，如果没有被及时清理，会影响环境且容易被踩到。机器人能不能通过巡逻，找到狗屎，反馈给物业，让保洁快速清理掉？

以这样一个问题为例，如果我们用传统的非深度学习的方法去做的话，可能要搜集几百、几千张狗屎的照片，然后人工地去搜集它的颜色、形状、以及纹理特征，然后去调节分类器。我们过去做人脸检测、行人检测，车辆检测都是这么做的，可能需要十几年的时间才调出来一个还不错的模型。但是深度学习模型一两个月就可以解决这个问题：我们先用平台去收集上万张狗屎的照片，也许我们再花上一两个星期的时间，调调模型然后交给机器去训练就好了，大概一两个月也许就可以部署这样一个系统。

对于大数据来说这够了，但和人相比还是不够。如果一个小孩踩了一次狗屎，基本上就不会踩第二次，也就意味着他基本上用一个样本，几秒钟的时间就学完了狗屎检测的问题。

再回到刚才水成说的，针对这样一个新类别的识别或者检测问题，深度学习目前很难解决。但或许学术界会有新的办法解决这个难题，只需让我们在互联网找三五张狗屎照片，使用这个办法的机器就可以自动选择模型，自动调参及后期优化，之后的一个星期就可以部署系统，解决问题。

余凯：我觉得大家对深度学习可能还是有一些过高的认识。它实际上离“智能”非常遥远，顺着这个狗屎的例子，我认为深度学习其实本身是进行大量的数据训练，实际上是一个很傻的事情。

第一点，深度学习其实缺乏一个东西，就是“常识”。比如说杯子不会悬在空中，它一定是在一个平面上；狗屎一般不会在墙上，因为狗一般不会跑到墙上去拉屎，这些“常识”使得在不需要很多样本的情况下，我们的“智能”其实能做到很精准。比如说做行人检测，行人肯定不会在树上，如果你知道这一片是树的话，你会觉得在那边做行人检测很奇怪。天上也不会飞汽车，所以也不会在天上去检测汽车。但是人其实都有“常识”，它使得你并不需要那么多的样本，就可以做很准确的一些判断。

第二点就谈到视觉本身。在过去的差不多七年的时间里面，视觉本身其实就是基于大数据的针对静态图片的训练，典型的就是基于ImageNet的训练，它其实大大地推动了整个行业向前发展；另外一方面，也把大家给推到一个相对来讲尴尬的位置，比如十年以后我们回头看现在，它可能是一个错误的方向。

因为人从来不会从静态的图片里面学习，人实际上是一个移动智能体，在整个移动过程中，他的场景随着三维空间和时间的变换具有连续性。这个连续性里面反映了一些结构，比如说近大远小以及透视的关系，这些东西实际上都帮助我们去理解场景和目标。所以基于静态图片的识别肯定是错误的方向，而把机器人学和计算机视觉结合在一起，把三维跟语义结合在一起才是正确的方向，这是第二点。

第三点，基于bounding box的检测识别方法其实是很错误的，因为人从来不会肤浅地给定bounding box，人类一定清晰知道物体的边界、前景和后景信息。所以从bounding box级别到像素级别的过渡，一定是正确的方向。

当然，我觉得还有很多方向，但是归结为一点就是，我们需要去纠正和面对的事情还有很多，创新其实才刚刚开始。而很多很多我们曾经认为是对的、我们曾经取得正确的、成功的经验有可能是错误的，而未来可以去做的正确的事情其实更多，或者说创新的空间性还很大。

如何解决小数据、无数据的问题？

如何实现半监督甚至无监督学习？

赵云峰：接下来问一个比较具体的问题。深度学习不太擅长解决小数据甚至无数据的问题、实现半监督甚至无监督的学习。那我们可以在哪些方面有新的探索？用哪些新的方法解决这些问题？

颜水成：无论来自计算科学领域，还是来自神经科学领域的研究者，都一直在探寻一个同样的问题——“早期时人脑识别的机制到底是什么样的”。去年的会上大家讨论了可能的一个hypothesis(假设)——人的大脑有两套机制，一套机制是非参的，一套机制是参数的。参数这套机制可以用类似深度学习的参数方法去模拟。另一套是非参的机制，我们在给定一个样本时，可能并不能立即给出模型。比如刚才狗屎的例子，如果说以前从来没有见过，现在见了一次狗屎，可能第二次、第三次见到狗屎的时候，并不是脑子里面有个模型，而是用已经见过的狗屎去做匹配。当你见的狗屎的数目足够多了之后，模型就可以从中学习出来，就是从非参转化到参数化。

也许我们思考这个问题的时候，从开始就做小样本的学习本身是错误的。因为人还有一个非参数的机制，一个数据积累的过程，我们认为形成模型是需要大数据慢慢积累的。并不是拿到样本即可立即得到一个模型。大家知道现在GAN可以非常好地去解释小样本学习的过程，比如你有一些类型的样本和一套生成机制，你可以从一个面生成出各个面的表示。比如说你看到了一次狗屎，但是你已看了很多牛粪，牛粪这个模型有了，那么可能脑袋里的GAN模型会模拟牛粪的生成机制，生成很多样本，这些样本再去指导人去识别新的狗屎。就是说有这么一个机制，一种是非参的，一种类似于GAN，已经生成一个模型了，一个新的样本利用相似的类别，会生成出很多样本出来。总的来说，最终的模型生成机制可能还是用大数据学出来的，并不是有一个样本立即能得到一个模型。

梅涛：我同意水成的观点，我始终相信学习还是通过大数据来学的。

小样本学习，现在有zero-shot learning，在学术上可以探讨，但是这样的技术很难应用到真实场景里。

我们在真实场景中也遇到过这样的问题，微软有很多数据，至于小样本，我们会在大数据库里面做一些数据的清洗，包括数据的整理，数据的排序这方面工作。最后还是把这个问题归结到基于大量样本学习的问题。

但在学术层面来说，我们对人脑认知物体的过程还是不太熟悉，泛化能力还不够清晰，所以我觉得这方面还是要跟神经科学结合起来进行研究，现在的zero-shot learning，one-shot learning解决实际问题的能力还有限。

张兆翔：小样本学习是人类学习的一个特长。但是即便是人类，其本质上的学习也是基于大样本的。因为人类从原始人到现在的进化过程中，有很多很多的观察数据都被刻画到基因中了，或者在进化过程中固化在人脑中。因此在现在社会当中，爸爸妈妈告诉孩子这是狗屎，其实样本是从猩猩、猴子踩到狗屎的时候开始采集的，所以说，人类的举一反三依旧是基于大数据。

因此归根到底，其实也是一个数据与知识的转化问题。很多时候我们讲学术，说人工智能应该走向数据与知识的结合。如果我们能够结合一些知识，显然能够从完全由数据驱动转化为一些小样本驱动。

另一个我觉得值得尝试的方面，就是前面几位提到的:大数据的学习仍非常重要。

我们知道现在很多时候会用到因果分析。不同的果是由一个原因导致的，比如说狗屎，还有狗屎旁边撒的一泡尿，这是两个模态、两种数据，却都因“狗的操作”这个原因导致，因此狗屎和狗屎旁的尿之间是有关系的。这种关系可以帮助我们构建映射关系。很多时候一些共生的模态，可以帮助我们做很多很多事，左眼可以看到东西，右眼也可以看到东西，你眼睛看到东西，同时你的耳朵也听到东西，这些共生的模态帮助人在处理信息时，减少标注数据，通过尽可能少的样本去达到一些更好的学习目的，这些都是学术界做的一些有意义的尝试，也体现了深度学习的研究有很大的挖掘潜力。

山世光： 其实我非常认同刚才水成讲到的两个观点，一个是某种非参数的方式，另外一个是一个参数的模型。

我举一个具体的例子。在人脸识别这个我们做了很多年的领域，这两种方式其实都是有的。在人脸识别这个领域里面，做神经科学和做心理学的人在研究两种不同的人脸识别方式。一种就是我们所谓的陌生人的识别，比如说之前你从来没见过我，给你一张我的照片让你去机场接我；另外一种是去辨认你非常熟悉的人。这两种不同的人在你的大脑里面识别模型其实是不一样的。前者在心理学或者神经科学领域，他们研究的结果更倾向于在你大脑里存了一个照片，因为你其实并没有见过其他更多的信息。当然你也可以举一反三，等会我们说另外一个话题。而对于非常熟悉的人，比如你现在回想你的父母，可能就不再是一个照片，而是有复杂多样的信息，更多音容相貌的信息就加进去了，那可能就变成了一个模型，而不是纯粹的一个照片或者是某种特征。这是一个我们会感觉到差异的地方，一个one-shot问题。

但实际上，在人脸识别领域，我们一直在践行的就是one-shot的问题。比如说今天大家可能在门口看到了我们的人脸识别系统。大多数人没在我们系统里面做过训练，只提供了一张照片，那为什么也可以识别你呢？我们也是用的深度学习。

为什么没有一个人成百上千张的照片也可以识别呢？是因为我们已经对其他的，可能是几十万人或者是上百万人的大量照片去做了学习。我们学的是什么呢？我们是学的如何去区分不同人脸的方法或者模型，这个东西是有推广能力的，它可以推广到我们从来没有见过的人身上。这个人来了之后，虽然他没有在训练集里面，但是我们用另外一百万人学出来的模型，可以非常好的去提取他跟别人有什么不同的特征。这其实已经是一个模型迁移问题，另外一群人的区分模型用到这个人身上去，我想这个就是一个迁移学习的例子。

刚才还提到GAN这样一个方法，我觉得这是个非常重要的事情。人类有举一反三的能力，人看了一张照片之后，你看到他正面的照片，你可能会想他侧面会长什么样，他笑出来是什么样等等。这些东西就是我们举一反三的能力。这个举一反三的能力是基于大数据学出来的，因为我们见过了太多的人，他正面长什么样侧面长什么样也学到了这个模型，那么这个模型可以指导我们去猜测这个人正面是这个样子，那他侧面是什么样，他笑起来又是什么样。

这个问题应该是基于大数据学习的，比如说，当我们这个世界上有一百万类物体需要识别，当我们做到了10000类的时候，也许做10001、10002类的时候就相对比较容易了，因为我们已经有了大量的识别其他物体的经验，利用这个经验，可以用少量数据迁移到其他的问题上去。

余凯：小数据学习和大数据学习，看似是两个很不一样的概念。但是我感觉这两个空间实际存在一个虫洞效应，就是这两件事情有可能是一件事，为什么是一件事？那我举三个例子跟大家解释一下。

第一个是举一反三、想象的能力。《人类简史》这本书中提到，在几十万年前存在人类的多个种群，我们现在胜出的叫智人。从脑容量来衡量，其实智人并不是最聪明的。但是考古学发现，智人群落与被智人打败的其他群落相比有一个很大的不同，就是智人有一个很明显的能力——虚拟化的能力，他会描述并演算虚拟的故事，比如他们会演算这个部落里有一个共同的神灵，以及对这个神灵的描述。一般的猴子只会见到了才相信，但是智人这群猴子对于未见之物也能够虚拟想象。

所以这种想象的能力让人类区别于其他种群。想象一个共同的神灵并且活灵活现他的行为、喜好、性格，这实际上给这个部落造成一个社会准则，让大家按照这个准则去匹配，因此这个种群就越来越强大。这是第一个例子，举一反三，并且想象的能力，就是让人类插上翅膀。

第二个例子是Alphago。一定意义上来讲，今年的Alphago2.0是完全从零的状态开始博弈，没有数据，它完全是左右博弈，去虚拟下无数盘棋。整个程序使用“深度学习+强化学习”，通过不断从虚拟对决里面学习经验，达到一个很强大的能力，会接近棋盘真理。

实际上他是zero data learning，没有用任何人类的历史棋盘对决数据，但是它又是大数据，为什么呢？因为它用很多虚拟的数据来学习，所以想象力使zero data learning和big data learning之间好像有个虫洞效应。实际上它们两个之间距离是非常短的，不是我们想象的差别那么大。

第三个例子，就是关于自动驾驶。因为真正测试一个自动驾驶系统的行为，不是靠这些normal traffic（正常交通行为），而是靠很多边界情况——不正常的交通行为，比如“小孩子突然跑到马路上”。但是不可能用真实的数据，不可能让小孩真的去横闯马路。所以用仿真系统来产生这种情况的数据，用来训练及测试。这个是自动驾驶必须要走的路。

实际上还是用大数据，但是这个数据是通过举一反三、虚拟想象出来的。在未来，“想象的数据”可能会填补数据的缺失所带来的掣肘，用小数据生成出大量数据，使系统不断进化，变得越来越聪明。

“举一反三”不是观测而是计算，不断的举一反三其实是更大计算力的体现。所以我认为，计算力还是会持续推动整个人工智能的发展，在当前时间点，投资在计算力上还是不错的。

人类知识和机器知识有“代沟”么？

赵云峰：山老师跟我聊到过这样一个问题，人类眼中的知识和机器眼中的知识可能是不太一样的，可能无法对应和转化，因此人类把知识赋予机器时，可能会影响机器效率和效果。对于这样一些问题，各位专家有什么见解吗？

山世光：我再解释一下这个问题。利用深度学习可以学出来一些深度模型，这里面包含很多知识，但是这仅仅是机器可读可理解的，人类其实不太能够理解它。我们也很难把人类经过几千年进化总结出来的知识嵌入到机器中。机器学出来的机器表示，与人类大脑里的知识表示之间有个鸿沟，如果不去跨越这个鸿沟，就很难将人类总结出来的知识，特别是书本里的知识，变成机器可理解、可利用的，很难让机器大规模地像人一样思考，像人一样做更多智能的事情。我也很想听一下大家的观点。

颜水成：一些诸如“common sense（常识）”的概念，其实并没有被深度挖掘。如何去表达、获取常识，以及知识在大脑中的存储方式都是有待发掘的，如果知其方式，那就意味着一个人的常识真的有可能像《超能查派》中一样被抽取出来，然后注入另一个生命体中，从我的角度讲这件事情是不可能完成的。

梅涛:common sense（常识）还是很重要的，我举两个例子。

首先，我们教微软小冰写诗时发现，她写出来的诗有时有较大偏颇或不通顺，其原因就是未考虑到常识。

其次，机器做一些caption问题时会出现明显的语法错误，它没有考虑到事物之间的关联。我们通过人为设计深度学习或者手工特征，是人类帮助设计出来的模型或者特征，而机器是没有任何知识的。人类的知识很复杂，医学常识及医生的专业知识更难表达。举个例子，几年前一些大的互联网公司构建一些通用的知识库，包含很多结点，每个结点代表一个实体，然后实体之间都是有联系的，每个实体都有歧义或者同义，对应的特征语言很丰富。这是一个比较通用的人类知识的表达，它至今还用到很多产品上。

颜水成:“常识”就有点像GAN里面的判别模型，区分是否为真实样本。

比如在image caption里，句子是通过提取特征后利用生成模型生成出来的。假如事先已经有了一个GAN的模型，在训练这个模型的时候，就利用GAN判别句子是由机器生成的还是真实的，在不能区分的时候，就相当于上面那个判别模型——常识。那么这样的话，比如说在这个image caption里面加另外一个loss，这个loss和GAN模型互相作用，这个作用就相当于常识。

梅涛：我理解的“常识”还是基于真实数据学出来的，其实还是有人的知识或数据包含其中。我不是通过GAN，而是通过一些句法，比如词性及主谓宾结构这种“常识”。从道理上讲肯定是生成式的效果更好一点，虽然深度学习翻译出来的解释性可能较差，但是综合来说，后者可能会好，学出来的句式更丰富一些。

余凯：深度学习在80年代末发展起来，马上就沉寂了。90年代贝叶斯网络非常流行。Judea Pearl (图灵奖得主，贝叶斯之父) 写了一本书《Causality:Models,Reasoning,and Inference》，因为这个causality (因果关系) 后来推演出贝叶斯网络。Daphne Koller 把它演绎到关系模式。这个实际上是表达知识的一种方式，知识推理的一个序列框架。

深度学习和贝叶斯网络的结合是一个趋势。举一个自动驾驶的例子，对于“红灯停”这件事情，检测是否为红灯是深度学习的事情，判断要停下来，就是贝叶斯网络的事情。真实场景可能更复杂，重点是知识的推演应该跟信号的理解结合在一起。所以，未来的决策系统一定是结合深度学习和贝叶斯网络网络的。然后，利用一个数学框架去结合从数据中获取的知识和先验知识或者常识。

颜水成:可以用后处理进行矫正，比如做语音识别，下面每个架构有一个inference，上面有一些模型。

山世光:如果打通了，比如做image caption，当发现结果不对时，可能把人类的知识灌进去就会变好。

颜水成：在某种层面上来说，这是因为数据量不足引起的。如果数据量足够，这种低级的错误就不会出现。

梅涛：但是语言具备一定的创造性，很难预见所有的样本。

张兆翔：有一个高考作文题目“假如记忆可以移植”在当时难倒了一批考生。如果知识可以被移植，那一切就太简单了。把人的知识和机器的知识贯穿起来，使得人的知识能够贯穿到机器的模型当中去，使得机器的模型能够利用人的知识，这就跟新一代人工智能规划的混合智能、人机接口息息相关。

梅涛：我有一个问题，从生物学或者医学角度讲，记忆是可以移植的吗？

张兆翔：搞神经科学的小组试图寻找记忆区未果，它好像是分布式存储的。最有名的例子就是小鼠脑区实验，切一点脑区它就找不到迷宫的路了。整个过程，随着脑区的切除，小鼠认知能力逐渐削弱，直到最后完全不认识路。但是并不能证明记忆与脑区的对应关系，知识真的很复杂，知识图谱、概率图模型、贝叶斯网络这些知识描述方法，和人类描述知识的方式肯定不一样。

有一种知识是能够言传身教的，比如父亲教小孩“不要碰插座会触电”；还有一种知识叫“可意会不可言传”，自己都不知道如何将它抽取出来传给另外一个人。

深度学习模型也有这样的问题，它自己知道这个知识但不能抽取显示出来，形成第三方介质一样的东西，然后让另一个深度学习模型看到这个东西后就能够吸取进去，它只能够效仿其他模型的做法。知识如何在机器和人之间传递，确实是一个很重要的问题，值得我们好好研究。我相信真的要研究的话，10年应该是可以的。

现场版视频链接：http://pan.baidu.com/s/1dFjeyYH