CS229——NODE1part2

来源：互联网发布：js 文件base64编码编辑：程序博客网时间：2024/06/16 08:51

局部线性回归（LWR）：
原始版本的线性回归是：
1.使用参数θ进行拟合，让数据集中的值与拟合算出的值的差值平方（最小二乘法的思想）
2.输出θTX
相应的在LWR局部加权线性回归中：
1.使用参数θ进行拟合，让加权距离 w(i)(y(i) − θT x(i))^2最小；
2.输出 θTX。
上面式子中的w(i)是非负的权值，直观点说就是，如果对应某个 i 的权值w(i)特别大，那么在选择拟合参数θ的时候，就要尽量让这一点的(y(i) − θT x(i))2 最小。而如果权值w(i)特别小，那么这一点对应的(y(i) − θT x(i))2就基本在拟合过程中忽略掉了。
关于权值的选取可以使用下面这个标准公式：
这里写图片描述

其中X是要预测的特征，这样假设的道理是离X越近权重越大，越远影响越小。权值与高斯分布相似，但并没有任何关系，权值不是随机数。参数tow叫做带宽参数，他控制了权值降低的速度。
局部加权线性回归算法是非参数算法，无权重的线性回归算法是参数算法。

分类和逻辑回归
一般来说，回归不用在分类问题上，因为回归是连续性模型，而且受到噪声影响比较大。
逻辑回归本质上也是线性回归，只是在特征到结果的映射中加入了一层函数映射，即把特征线性求和，然后使用函数g(z)作为假设函数来预测。g(z)可以将连续值映射到0和1上。
逻辑回归的假设函数h如下：
这里写图片描述
而线性回归假设函数知识θTX.
逻辑回归用来分类0/1问题，也就是预测结果是属于0或者1的二值分类问题。
这里假设二值满足伯努利分布，也就是：

当然也可以假设它满足泊松分布、指数分布等。

与线性回归一样，仍然是求最大似然估计，然后求导，θ迭代公式为：
这里写图片描述

牛顿法来解最大似然估计
线性回归和上式求解最大似然估计的方法是求导迭代，牛顿下降法可以使结果更快速的收敛。
牛顿法：假设我们有一个从实数到实数的函数f:R->R,然后找一个θ，来满足f(θ)=0，其中θ是一个实数。牛顿法就是通过对θ做出如下更新：
这里写图片描述
当应用求解最大似然估计的最大值时，变成求解l’(θ)=0的问题。那么迭代公式变成：

当θ是向量是，牛顿法可以用以下式子表示：

牛顿法收敛速度虽然很快，但求 Hessian 矩阵的逆的时候比较耗费时间。
当初始点 X0 靠近极小值 X 时，牛顿法的收敛速度是最快的。但是当 X0 远离极小值时，牛顿法可能不收敛，甚至连下降都保证不了。原因是迭代点 Xk+1 不一定是目标函数 f 在牛顿方向上的极小点。

广义线性模型
在逻辑回归时使用g(z)函数是由理论支撑的，这个理论便是广义线性模型。
如果一个概率分布可以表示为：
这里写图片描述
那么这个概率分布是属于指数族分布。伯努利分布，高斯分布，泊松分布，贝塔分布，狄特里特分布都属于指数分布。
上面的式子中，η叫做此分布的自然参数， T(y) 叫做充分统计量，我们目前用的这些分布中通常T (y) = y；而 a(η) 是一个对数分割函数。e−a(η)这个量本质上扮演了归一化常数的角色，也就是确保p(y; η)的总和等于1。
伯努利分布的概率可以表示成：
这里写图片描述
其中：

得到：

这就解释了逻辑回归为什么要使用这个函数作为假设函数。

广义线性模型的要点是：
这里写图片描述

阅读全文

0 0