Machine Learning第七讲[支持向量机] --（二）核函数

来源：互联网发布：java高并发项目源码编辑：程序博客网时间：2024/05/19 00:14

内容来自Andrew老师课程Machine Learning的第七章内容的Kernels部分。

一、Kernels I（核函数I）

在非线性函数中，假设函数为：

$h_\theta(x)=\left\{\begin{matrix} 1 & , & \theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1x_2+\theta_4x_1^2+.......\geqslant 0\\ 0 & , & otherwise \end{matrix}\right.$

现在我们将表达式改变一下，将其写为：

$\theta_0+\theta_1f_1+\theta_2f_2+\theta_3f_3+......$

即

$f_1=x_1,f_2=x_2,f_3=x_1x_2,f_4=x_1^2,f_5=x_2^2,......$

联想到上次讲到的计算机视觉的例子，因为需要很多像素点，因此若f用这些高阶函数表示，则计算量将会很大，那么对于 $f_1,f_2,f_3,......$ 我们有没有更好的选择呢?

由此引入核函数的概念。

对于给定的x，

$\\f_1=similarity(x,l^{(1)})=exp(-\frac{||x-l^{(1)}||^2}{2\delta^2}) \\ f_2=similarity(x,l^{(2)})=exp(-\frac{||x-l^{(2)}||^2}{2\delta^2}) \\ f_3=similarity(x,l^{(3)})=exp(-\frac{||x-l^{(3)}||^2}{2\delta^2}) \\$

其中，similarity( )函数叫做核函数（kernel function），又叫高斯核函数，其实就是相似度函数，但我们平时写成 $k(x,l^{(i)})$ 。

这里将 $||x-l^{(1)}||^2= \sum_{j=1}^{n}(x_j-l_j^{(1)})^2$ ，则f1表达式为：

$f_1=similarity(x,l^{(1)})=exp(-\frac{||x-l^{(1)}||^2}{2\delta^2}) = exp(-\frac{\sum_{j=1}^{n}(x_j-l_j^{(1)})^2}{2\delta ^2})$

若 $x\approx l^{(1)}$ ，则 $f_1\approx exp(-\frac{0^2}{2\delta ^2})\approx 1$

若x is far from $l^{(1)}$ ，则 $f_1\approx exp(-\frac{(large \quad number)^2}{2\delta ^2})\approx 0$

下面的图形会给出比较直观的感受：

delta^2比较小，则图形比较陡峭；随着delta^2越来愈大，图形渐趋平稳。

在此基础上，看下面的例子：

对于紫色的点x，因为其距离 $l^{(1)}$ 比较近，距离 $l^{(2)},l^{(3)}$ 比较远，因此 $f_1\approx 1,f_2\approx 0, f_3\approx 0$ ，theta值是已知的，将theta和f的值代入即可得到这个点的预测值。

对于蓝色的点，因为其距离 $l^{(1)},l^{(2)},l^{(3)}$ 都比较远，因此 $f_1\approx 0,f_2\approx 0, f_3\approx 0$ ，代入即可得到预测值。

通过选取很多这样的x值，得到他们的预测值，得到边界，如图红色不规则封闭图形所示，在图形内部预测值为y=1，在图形外部的预测值y=0。

二、Kernels II（核函数II）

上面Kernels I内容中讲到了 $f_i$ ，那我们应该怎么样选出 $l^{(1)},l^{(2)},l^{(3)},......$ 呢？

我们采取的方法是将每一个样本都作为一个标记点。

SVM with Kernels

给出 $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})$ ，我们选择 $l^{(1)}=x^{(1)},l^{(2)}=x^{(2)},...,l^{(m)}=x^{(m)}$ 。

对于x，则有

$\\ f_1=similarity(x,l^{(1)}) \\ f_2=similarity(x,l^{(2)}) \\ ......$

有向量

$f=\begin{bmatrix} f_0\\ f_1\\ .\\ .\\ .\\ f_m\end{bmatrix}$

其中 $f_0=1$ 。

对于训练样本 $(x^{(i)},y^{(i)})$ ，有

$x^{(i)}\rightarrow \left\{\begin{matrix} f_{1} = similarity(x^{(i)},l^{(1)})\\ f_{2} = similarity(x^{(i)},l^{(2)})\\ ...................................\\ f_{m} = similarity(x^{(i)},l^{(m)})\\ \end{matrix}\right.\rightarrow f^{(i)} = \begin{bmatrix} f_{0}^{(i)}\\ f_{1}^{(i)}\\ .\\ .\\ f_{m}^{(i)}\\ \end{bmatrix}$

（公式来自：http://blog.csdn.net/u012328159/article/details/51339801）

其中， $f_i^{(i)}=similarity(x^{(i)},l^{(i)})=exp(-\frac{0}{2\delta^2})=1$ （公式中 $l^{(i)}=x^{(i)}$ ），且 $f_0^{(i)}=1$

于是，假设函数变成

$y=\left\{\begin{matrix} 1& ,&\Theta^{T}f=\theta_0f_0+\theta_1f_1+...+\theta_mf_m\geqslant 0(\Theta \in \mathbb{R}^{m+1}) \\ 0&,& otherwise \end{matrix}\right.$

其中，m为训练集的大小

带核函数的代价函数为：