CS229学习笔记之概率解释与局部加权线性回归

来源：互联网发布：手机恶意坑人软件编辑：程序博客网时间：2024/06/17 17:32

系列第二篇~

线性回归模型的概率解释

在线性回归中，为什么要选择最小二乘函数作为代价函数？我们可以用概率模型来对其进行解释。

概率模型

假设真实值与输入之间满足如下等式：

y (i) = θ T x (i) + ϵ (i)

其中

ϵ(i)是误差项，表示没有被建模的因素或是随机噪声。进一步假设误差项是独立同分布的，那么根据中心极限定理，大量相互独立的随机变量之和是符合正态分布（可以理解为大量独立随机变量的大部分误差会相互抵消），即

ϵ(i)∼(0,σ2)，那么有：

p (ϵ (i)) = 1 2 π ‾ ‾ ‾ \sqrt σ exp (- ( ϵ ( i ) ) 2 2 σ 2)

因为误差的概率和预测出真实值的概率是一样的，因此：

p (y (i) ∣ x (i); θ) = 1 2 π ‾ ‾ ‾ \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

注意，这里

p(y(i)∣x(i);θ)不同于

p(y(i)∣x(i),θ)，这里指给定

x(i)，以

θ为参数的

y(i)的分布，因为对于训练集，

θ是客观存在的，只是当前还不确定，所以有

y (i) ∣ x (i); θ \sim  (θ T x (i), σ 2)

即真实值应该是以预测值为中心的一个正态分布。

似然函数

给定训练集X和参数θ，预测结果等于真实结果的概率，将其看作θ的函数，可以理解为θ为真实θ的可能性（似然性），即：

L (θ) = L (θ; X, y ⃗) = p (y ⃗ ∣ X; θ)

因为假设

ϵ(i)是独立的（即给定

x(i)，

y(i)也是独立的），所以有：

L (θ) = \prod i = 1 m p (y (i) ∣ x (i); θ) = \prod i = 1 m 1 2 π ‾ ‾ ‾ \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

现在，我们可以通过最大似然法，即找出使

L(θ)最大的那个

θ，作为对参数

θ的最佳取值。

实际应用中，为了简化计算，通常不直接求似然函数的最大值，而是采用对数似然函数：

ℓ (θ) = log L (θ) = log \prod i = 1 m 1 2 π ‾ ‾ ‾ \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = \sum i = 1 m log 1 2 π ‾ ‾ ‾ \sqrt σ exp (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = m log 1 2 π ‾ ‾ ‾ \sqrt σ - 1 σ 2 \cdot 1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

因此，最大化

l(θ)就是最小化：

1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

而这正是我们之前提出的最小二乘代价函数！

注意点：

概率解释只是对最小二乘法的一种合理解释，其实还有其他的解释方法
θ的选择并不依赖于σ2，即使它是未知的

局部加权线性回归

欠拟合与过拟合

对于传统的线性回归，特征的选择极为重要，对于下面三幅图，我们称第一幅图的模型是欠拟合，第三幅图的模型则是过拟合。

这里写图片描述

可以看出，找到一个全局的线性模型去拟合整个训练集，并不是一件简单的事情，往往会引起欠拟合或是过拟合的发生，对于这种情况之后会给出解决方案，而这里我们提出了另外一种思路，即局部线性加权回归，这种方案可以使特征的选择的重要性降低。

算法思路

局部线性加权回归的思路是并不去拟合整个训练集来产生全局的模型，而是在每次预测时，只去拟合给定输入x附近的一小段训练集，无论全局训练集是怎样的一条分布曲线，在局部小段数据上，都可以用线性去逼近。具体步骤如下：

1. 2. Fit θ to minimize \sum i ω (i) (y (i) - θ T x (i)) 2 Output θ T x

这里

ω(i)是非负权重，一般取为

ω (i) = e x p (- ( x ( i ) - x ) 2 2 τ 2)

（当x为向量时表达式有所不同）

可以看出，离给定输入越近的样本点权重越大，拟合程度越高。

注意：ω(i)的定义与高斯分布类似，但并没有关系，分布曲线同为钟型。τ称为带宽参数，用来控制钟型曲线的顶峰下降速度，即权重变化的快慢，需要根据具体情况作出调整。

参数与非参数

局部加权线性回归本质上是一种非参数学习算法，而传统的线性回归是一种参数学习算法。

两者的区别在于参数学习算法有一组有限的、固定的参数，一旦完成拟合，只需要保存下参数值做预测，而不需要保存完整的训练集；而非参数学习算法由于参数不固定，所以需要保存完整的训练集来进行预测，而不仅仅是保存参数。

非参数导致的结果：为了表达假设h而保存的数据将随着训练集的大小而线性增长。

阅读全文

1 0