横论机器学习算法

来源：互联网发布：多宝视弱视训练软件编辑：程序博客网时间：2024/05/16 03:52

摘要

主要是通过回归（discrimination learning model）来对机器学习算法建立横向连接，有助于对各类算法的理解和归类。

储备知识

从统计学角度来讲，一个信号基本上可以分为两个部分：系统性部分和随机分布，系统性部分在我看来是传达的某种规律性的信息，而随机成分就是用来对信号中不能通过规律性的东西进行把握的部分。所以，一般来讲都采用高斯分布进行建模。系统性的部分就是所谓的利用hypothesis建模得到的，而误差e就是用来进行建模的基础，用公式化的描述为：

y - h (x) = y - w T x ： N (μ, σ) p (e) = 1 2 π - - \sqrt e x p (- e 2 2 σ 2) p (y | x; θ) = 1 2 π - - \sqrt e x p (- （ y - w T x ） 2 2 σ 2)

上面的概率公式叫做，给定x，以参数θ的y的概率分布。以上说明的是对一个数据集建模的部分和unmodeled effects，大部分的研究都可以从这个角度出发，通过假设建模误差的概率分布，从概率角度入手，以似然函数的最大化为目标，通过梯度下降或者牛顿方法进行迭代搜索最优。

补充：梯度下降与牛顿方法是两种非常常用的迭代优化方法，主要的思想就是通过迭代，一步一步地逼近最优解。梯度下降比较直观，沿着梯度的反方向进行搜索，属于典型的贪婪算法，迭代搜索的每一步都是当前最优的下降方向，但在全局看来可能并不是最优的下降曲线；而牛顿法则是通过分析极大和极小值处曲线的特性，通过求导，并使导数为0，构造典型的f(X)=0的优化形式，每一步都从该点处的切线位置与X轴（或平面）相交的处的X作为下一次迭代的搜索位置的X坐标（对应的y可以通过f(X)=0求得）。通常情况下牛顿法收敛速度比梯度下降方法要快。

对于线性回归分析，通常是利用平方误差最小化进行推导的，而它的另一种表达就是通过上面的概率解释。通过求解似然函数最大化问题，照样可以推导出平方误差函数来（cost function）。

关于“记忆”

这里主要参考从统计学角度来看深度学习（3）：记忆和核方法，有关内容只属于总结性质。
人们通过对以往的经验或者数据的回忆来推断未来的事物，这样的过程可以用一个经常出现在最近文献中的词语——记忆来概括。机器学习模型都是由这样的‘记忆’组成的。根据机器学习模型的种类，可以分为两种主要的记忆机制，即参数型与非参数型（还包括了介于两者之间的模型）。深度网络作为参数记忆型模型的代表，它将统计特性从所观察到的数据中以模型参数或者权重的方式提炼出来。而非参数模型中的典范则是核机器（以及最近邻），它们的记忆机制是存储所有数据。可以自然地认为，深度网络与核方法是两种原理不同的由数据推导结论的方法，但是实际上，我们研究出这些方法的过程却表明它们之间有着更加深远的联系以及更基本的相似性。参数型的“记忆”是通过模型的参数将数据用简洁的模型概括出来，这种形式的好处是：将数据的特性嵌入到一个hypothesis当中，扩展性良好。而非参数型的“记忆”是通过存储所有的数据来实现记忆的，比如最近邻方法，就是将观测数据存起来，当输入新的数据时，通过对比在“记忆”里与新数据的相似度，选择最相近的那个样本的输出作为其输出。
因此“横论”主要包括两个方法：深度网络、核方法，但本质上却相互联系。

深度网络

线性模型与广义线性模型，实际上通过特征变化基函数，可以实现对特征的映射或者提取，而采用深度网络在最后一层采用线性模型，而前面的所有层可以采用非线性映射的激活函数，可以自适应的找到更好的特征，而不必进行人为地设计。即将输出层作为线性层与前面l−1层分开，同时用映射函数ϕ(x;θ)来表示前面l−1层的映射结果，同时赋予最后一层权重为w，此模型参数空间为q={θ,w}。
利用前面预备知识中的概率模型，得到如下的表示：

系 统 性 部 分 ： f = w T ϕ (x; θ) ｑ ～ Ｎ (0, σ 2 q I), 随 机 性 部 分 ： y = f (x) + e ｅ ～ N (0, σ 2 y)

这样就可以设计似然概率，通过联合概率分布取对数后取负数得到，最小化这个负的似然函数，可以采用最大后验估计，通过BP算法获得模型参数。“记忆”就通过这个模型参数框架被保留下来。

J (w) = 1 2 \sum n = 1 m (y n - w T ϕ (x n; θ)) 2 + λ 2 w T w

核方法

继续地，将上面那个目标函数，写成它的dual问题，通过对w求导为0，得到它的对偶问题。

w = 1 λ \sum n = 1 m (y n - w T ϕ (x n)) ϕ (x n) w = \sum n = 1 α n ϕ (x n) = Φ T α α n = - 1 λ (w T ϕ (x n) - y n)

将所有的观测值的基函数（特征）整合到了矩阵

Φ(x)中，将最后一层参数的解代入到损失函数中，我们就得到了由新参数

α构成的对偶损失函数，以及涉及矩阵相乘的格拉姆矩阵（Gram Matrix）

K=ΦΦT。重复之前的求导过程，解出对偶损失函数最小的优化参数

α:

α = (K + λ I N) - 1 y

这里是核方法与神经网络分道扬镳的地方，仅仅需要考虑特征

ϕ(x)的内积K，而不是采用深度网络的非线性映射进行参数化地概括，所以可以采用核替代的方法，选择一个合适的核函数来进行计算。所以，深度网络与核方法具有很深的联系，实际上是互为对偶问题的。所以“记忆”的机制已经转变为非参数了，通过核矩阵显示地刻画了所有样本点。核方法的优势在于能更容易的获得具有我们期望性质的函数，例如具有p阶可微的函数或者周期函数，而这些性质是不太可能通过随机逼近得到的。测试数据

x∗的预测值也可以通过核函数的形式写出:

f = w T M A P ϕ (x *) = α T Φ (x) ϕ (x *) = \sum n α n k (x *, x n) = k (X, x *) T (K + λ I) - 1 y

这个等式是由表示定理（Representer theorem）得出的解。

2015-8-24
艺少

1 0