2010-10-12

来源：互联网发布：淘宝如何进行身份认证编辑：程序博客网时间：2024/05/20 14:17

2015-10-12

今日总结：

1. 读到《Does deep learning comefrom the Devil?》中，Vapnik和Intrator教授说，婴儿的学习无需数以亿计的标记样本。换句话说，从巨量标记数据中学习很有效，但如果仅仅依赖于此，会让我们蔽目于学习的本质原理。也许今天这些算法从巨量数据中才能学到的，其实只需几百样本，如果真是如此，那我们是败给了在学习本质原理探索上的懒惰。

其实自己还是比较认同这个观点，正如只有懒人才能发明吸尘器一样，懒人希望能够用这种快速的暴力方式解决那些耗时耗力的问题，因此出现了能够自己提取特征进行分类的Deep Learning。而当我们发现Deep Learning已经到达极限之时，人们便会重新在特征工程方面入手，以解决在少量数据集上能够做好的事情。仅仅是事情发展到一定程度的趋势而已，也是人的懒惰心理作祟，试想能够走捷径的事情谁不喜欢，也正是不断地追求捷径才有了科技的进步。

2. Pycharm一直都是灰色的运行还有调试，修改完配置也不行，到底是怎么了

不知道到底是怎么了，不过还是修改了一下可以做出来了，还好也没什么影响

3. 通读了一篇文章《理解dropout》鉴于不能转载，于是我把这个的网址贴出来放在下面

http://blog.csdn.net/stdcoutzyx/article/details/49022443

a) 首先理解什么是dropout

Dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。注意是暂时，对于随机低度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。Dropout是CNN中防止过拟合提高效果的一个大杀器，但对于其为何有效，却众说纷纭。下面代表了其两种主流的观点。

b) 组合派

植物和微生物大多采用无性繁殖，因为它们的生存环境的变化很小，因而不需要太强的适应新环境的能力，所以保留大段大段优秀的基因适应当前环境就足够了。而高等动物却不一样，要准备随时适应新的环境，因而将基因之间的联合适应性变成一个一个小的，更能提高生存的概率。

c) 噪声派

对于每一个dropout后的网络，进行训练时，相当于做了Data Augmentation，因此，总可以找到一个样本，使得在原始的网络上也能达到dropout单元后的效果，比如，对于某一层，dropout一些单元后，形成的结果是(1.5,0,2.5,0,1,2,0)，其中0是被drop的单元，那么总能找到一个样本，使得结果也是如此。这样，每一次dropout其实都相当于增加了样本。

4. 写随机森林sklearn调用接口的函数

明日完成：

神经网络的pybrain函数的写定，以及两个函数的对接

0 0