cnn为什么在提取特征时那么有效？

来源：互联网发布：阿里云华北2区编辑：程序博客网时间：2024/04/29 15:05

其实我是来提问题的，不是来解答问题的。

cnn吧，其实是lecun那位神做的。其实虽然是hinton是现在DL的大神，但是火起来或许主要是因为alex的那篇imagenet2012啊，大规模的图像数据分类，效果得到了大幅度提高，取得了state of art的结果。然后，ng之所以在times什么的报道里有，大概是因为沾了google的不少便宜吧，识别猫脸和人脸，无监督，大规模图像数据。

其实，dl自始至终大概都是有一个概念，就是representation，这个在hinton的经典文章里也提到了，类似于PCA。cnn得到的特征到底可以用来做什么呢？我想看看PCA能用在哪里吧，分类中是必不可少的，而别的类别，这雨后春笋也都出来了。detection(r-cnn), 还有语音识别等等，前几天看到一篇文章，cnn features off the shelf an astounding baseline for recognition，从标题大概就能明白了，cnn得到的feature可以分类、检测、识别还有retrieval，我们小组大概读了一下其中的retrieval，效果是可以的。

从cnn的一系列可视化文章中，可以看到cnn提取到的特征，在高层已经是一种语义组合了，这个不就是前几年大家都在说的，要提取语义特征什么的嘛。层越低，特征越原始，比如一层卷积的结果，就是颜色和边缘特征，我估计从这一层得到的结果和边缘检测什么的sift差不多吧。

具体效果为什么这么好呢。我估计是因为不同层节点之间相连，有点类似于人的神经，在有监督情况下，会根据标签，有目的地去激活一些节点，而抑制另外一些节点。就像大脑一样，看到一件事物，会根据信息，经过节点，形成语义知识，然后就形成我们大脑中的概念，也就是物体是什么。

数学上的证明嘛，其实我也不知道，其实我觉得应该先把人的大脑用数学模型建立起来，知道那些节点和神经元是在学习东西时激活的，然后再来看看DL。

0 0