统计与机器学习发展的三条主线(一)

来源：互联网发布：卖软件的公司编辑：程序博客网时间：2024/04/27 18:18

今天在这里简单谈谈统计与机器学习发展的三条主线。第一，为什么我们要找主线，答案很简单，如果没有主线的话，我们学习一个东西就困难很多。举个例子来说，微积分的主线是什么，那么大家都知道，刚开始牛顿和莱布尼兹搞出来微积分了，但是呢，有很多积分是无法安装牛顿那一套来计算的，所以后面勒贝格为了解决一些积分无法计算的问题，又提出了勒贝格积分，也就是现在的实变函数了，大数学家黎曼为了解决微积分在复数上的运算，又发展出来了复变函数。所以呢，这样看来，我们就逐渐明白了，大学里边学的三门课，高等数学，复变函数，实变函数就是沿着微积分发展的主线而来。再如一个，大学里边会学习近世代数，或者叫抽象代数，一上来就讨论群，换，域，商等各种概念，那么大家听的是一脸蒙，不知道为啥要讨论这些概念。到后面随着我们知识的积累，那么我们逐渐就明白了，原来这些是为了求解方程的根，由数学家伽罗瓦提出的一些理论，逐渐也就理解了，所以前面的这些例子就是为了说明我们要知道一门学科的主线，如果不清楚主线，那么我们学习起来就很费劲，而且老是理解不了核心思想。那么这篇博客的作用就是给大家介绍一下机器学习这门课的主线。当然这是我自己看书逐渐总结的，难免会有一定的局限性，我也欢迎大家随时留言提出，我们一起讨论可好。

谈到机器学习呢，大家马上想到的就是分类，聚类，或者是神经网络，支持向量机，决策树，梯度提升树，深度学习等等，大家有没有想过为什么发展出了这么多方法，他们有没有像微积分那样的源头，如果有的话，有几个源头。源头肯定是有的，而且不只一个，如果从神经网络开看，它的源头好找，感知器便是它的源头，那我们就先从感知器说起，逐渐往后面谈，Rosenblatt所提出的感知器是一个非常创新的想法，感知器虽然一个有着非常简单的结构，并且只能解决线性可分问题。但是和传统的线性判别方法有着明显的不同，它是通过不断调整参数来确定最后的分类器，而线性回归或者线性判别呢，在当时都是一次性参数就确定，没有调整的过程。当然后面随着优化算法的发展，线性回归的求解也可以变成是一个逐渐求解的过程。在当时，可以说，感知器的提出，极大的影响了人们的观念，并且当时Rosenblatt就提出，随着感知器隐函层的增加，感知器可以以任意精度拟合任何函数，这可厉害了。学过高数的人都知道，多项式就有这个功能，可以拟合任何函数。现在感知器也有这个功能了。但是呢，随着网络层数的增加，参数学习有困难了，不知道如何求解这个优化问题。所以，感知器的发展曾经一度陷入困境。直到BP算法的提出，这已经是80年代的时候了。这里需要说的是BP算法是一大类算法，它是说，误差沿着神经网络从后向前传播，通过参数的调整，最终将误差分散在神经网络的节点上。所以呢，神经网络及时很深，通过BP算法可以进行参数的学习。理论上是这样的，于是大家感觉神经网络的春天又来了。可事实并不是这样，虽然BP按道理将误差分摊到了每个节点上，但是呢，神经网络如果太大，就是导致每个神经元分摊的误差很小，调整的余地不大，这样模型参数一直在调整，但是却没有实质性的改变。这叫梯度消失问题，在递归神经网络里边还存在梯度爆炸。这样呢，神经网络的发展再次陷入困境。许多研究神经网络的转向了另一个很有意思的模型，那就是支持向量机。后面我们再说。

我们刚才谈到了，由于网络太复杂的时候，每个神经元分担很少的误差导致了BP算法的低效，那么神经网络要想进一步发展，就需要解决这个问题。办法总是有的，我们很容易看到，之所以BP算法在神经网络上有出现这样的问题，主要是参数太多，本质上是多层感知器那种全连接的方式导致的，要是通过局部连接，就会避免这个问题，卷积神经网络则是利用局部连接的优势，当然，这个局部连接不仅带来了参数少的好处，还带来了其他的效果，就利用卷积进行扫描，提取特征。当然卷积神经网络出现并没有让神经网络真正流行起来。其中的原因可能是互联网发展还没有太成熟。上面这是局部连接，我们说解决了参数太多，梯度消失的问题，那么有没有其他的方法呢，有呢，

我们说，除了局部连接，另一个重要的方法是预训练的方法可以解决梯度消失，这话该如何谈起。是这样的，BP算法在求解神经网络的参数过程中，它对初始参数很敏感，如果初始参数设置的好，那么它就表现的好，初始参数差，那么塔就表现差。所以呢，初始参数很重要，那么什么是好的参数呢。越接近真实的参数就是好的参赛，比如2*x=6，真实的x是3，那么越接近3的参数就是好的参数。那么对于神经网络也是这样的。通过一个自编码，逐层训练神经网络，得到初始参数就是好的初始参数。在此基础上再进行BP算法的全局学习，这样的方式也可以解决梯度消失，这样的神经网络，叫深度信度网络，那么这个方法是啥时候提出的呢，2006年提出的，这个方法可以说是从理论上解决了深度神经网络参数学习的可行性。但是呢，2006年，大家还是没有感觉神经网络真正火起来，真正的火起来是2012年，辛顿教授学生利用深度神经网络参加斯坦福大学举办的图像识别大赛，一下子把错误率降低了将近20%。这下可好了。全球都意识到，深度神经网络这么厉害，而神经网络也摇身一变成了深度学习，身价瞬间暴涨。

以上就是我梳理的第一条主线，沿着神经网络展开的，那么有没有其他的主线呢，当然有呢，我们明天继续！

阅读全文

2 0