6.1 对偶表示

来源：互联网发布：小世界网络 netlogo 编辑：程序博客网时间：2024/05/23 13:47

6.1 对偶表示

机器学习模型可以大致分为两类。
一种类似于神经网络、线性回归等，我们选用一些数学函数，通过在训练集上迭代训练以调节参数，最终我们得到这个包含数学函数和参数的模型，预测新数据时只需将数据传入模型。
另一种方法类似最近邻和这一章的向量机，我们保留训练集的一部分，每当预测新数据时，使用某种度量方法，用存储的训练集数据预测新数据。这种方法往往训练速度很快或者根本不需要训练，然而预测可能会比较慢。
许多线性参数模型可以被转化为一个等价的“对偶表示”。对偶表示中，预测的基础也是在训练数据点处计算的核函数的线性组合。对于基于固定非线性特征空间映射ϕ(x)的模型来说，核函数形式为：

k (x, x') = ϕ (x) T ϕ (x')

若

ϕ(x)=x，就得到了最简单的核函数

k(x,x′)=xTx′，我们称之为线性核。
通过使用对偶表示的形式，核函数可以自然地产生。考虑一个线性模型，它的参数通过最小化正则化的平方和误差函数来确定。正则化的平方和误差函数为：

J (ω) = 1 2 \sum n = 1 N {ω T ϕ (x n) - t n} 2 + λ 2 ω T ω

令

J(ω)关于

ω的梯度等于零，可以看到

ω的解是向量

ϕ(xn)的线性组合的形式，系数

a是

ω的函数，形式为：

ω = - 1 λ \sum n = 1 N {ω T ϕ (x n) - t n} ϕ (x n) = \sum n = 1 N a n ϕ (x n) = Φ T a

我们现在不直接对参数向量

ω 进行操作，而是使用参数向量

a重新整理最小平方算法，得到⼀个对偶表示（dual representation）。将

ω=ΦTa 代⼊

J(ω)，可以得到:

J (a) = 1 2 a T Φ Φ T Φ Φ T a - a T Φ Φ T t + 1 2 t T t + 1 2 a T Φ Φ T a

定义Gram矩阵

K=ΦΦT ，它是⼀个 NxN 的对称矩阵，元素为:

K n m = ϕ (x n) T ϕ (x m) = k (x n, x m)

这里引入了上述核函数的表示，使用Gram矩阵，平方和误差函数可以写为：

J (ω) = 1 2 a T K K a - a T K t + 1 2 t T t + 1 2 a T K a

求解

a ，得到：

a=(K+λIN)−1t
将该结果代⼊线性回归模型中，对于新的输⼊x，我们得到了下面预测：

y (x) = ω T ϕ (x) = a T Φ ϕ (x) = k (x) T (K + λ I N) - 1 t

其中我们定义了向量

k(x)，它的元素为

kn(x)=k(xn,x) 。因此我们看到对偶公式使得最小平方问题的解完全通过核函数表⽰。这被称为对偶公式，因为a的解可以被表示为

ϕ(x) 的线性组合，从⽽我们可以使⽤参数向量

ω 恢复出原始的公式。
在对偶公式中，我们通过对⼀个N x N的矩阵求逆来确定参数向量

a，⽽在原始参数空间公
式中，我们要对⼀个M x M的矩阵求逆来确定

ω。由于N通常远⼤于M，因此对偶公式似乎没有实际⽤处。然而对偶公式的优点是，它可以完全通过核函数

k(x,x′) 来表⽰。于是，我们可以直接针对核函数进行计算，避免了显式地引⼊特征向量

ϕ(x)，这使得我们可以隐式地使用高维特征空间，甚至无限维特征空间。

1 0