2.局部加权线性回归和逻辑回归

来源：互联网发布：mac好用的vpn 编辑：程序博客网时间：2024/06/05 17:25

1.局部加权线性回归

在讲述局部加权线性回归时，先论述关于，过拟合的概念：

李航老师的《统计学习方法》中给出了很好的定义：过拟合是指学习时选择的模型所包含的参数过多，以致于出现这一个模型对已知数据预测得很好，

但对于未知数据预测很差的想象。欠拟合的概念与此相反，下面用3张图来展示其拟合程度：

从完美拟合所有训练数据的意义上来说，这是一个伟大的模型，当从另一个方面来讲它也许并不是一个非常好的模型，因为没人会认为这个房子大小

的函数是一个对于房价非常好的预测。

>.局部加权回归：

局部加权回归：当你要处理x点时，我会检查数据集合，并且只考虑位于x周围固定区域内的数据点，之后对这些点拟合线性回归

通常我们会将权值记为：，被称为波长函数，它控制了权值距离下降的速率。

比较小时:图中蓝色的线表示距离较远的点权值会降低的非常快。

比较大时:图中红色的线条权值随着距离下降的速度会相对较慢。

我们将样本中的每个点，都采用局部加权回归拟合，这样就会拟合出一条曲线，这条曲线就是我们要拟合的结果。

2.关于前面我的博客中关于线性回归中损失函数的概率论版本的解释：

我们在讨论下非加权线性回归：

1. 最小二乘模型：在我们预测房屋价格的例子中，假设房屋的价格是一些特征的线性函数加上，即：

表示误差项，,这个误差项可看成是对未建模的效应的捕获，也许房子还有其他特征，比如说房间有多少壁炉，

或者房间是否有花园？或者你也可以把他看成是一种随机的噪声。

1. 现在我们假设这个误差服从均值是0的高斯分布，例如：

我们假定在给定参数的情况下。房屋的价格服从高斯分布，则有：

也就是房屋价格是加上一些服从高斯分布的且方差为噪声的，均值为：；

这个假设的前提是中心极限定理：许多独立同分布(IID)的随机变量值和，趋向于服从高斯分布。

我们来看看似然函数：

假设误差满足IID，怎么样去估计参数呢?

通常情况下，我们会选择，使得数据出现的可能性尽可能大，亦选择使得似然性最大化，或者说选择参数，使得数据出现的可能性尽量大

对于上面的使然函数我们取对数似然函数如下：

这样我们就可以将问题转换成为求：

的极小值

3.逻辑回归的引入出之《Pattern Recongnitionand Machine Learning》：

Webegin our treatment of generalized linear models by considering the problem
of two-class classification. In our discussion ofgenerative approaches in Section 4.2,
we saw that under rather general assumptions, theposterior probability of class C1
can be written as alogistic sigmoid acting on a linear function of the feature vector
φ so that
p(C1|φ) =y(φ) = σ wTφ (4.87)
with p(C2|φ) =1 - p(C1|φ).Here σ(·) isthe logisticsigmoid functiondefined by
(4.59). In the terminology of statistics, this model isknown aslogisticregression,
although it should be emphasized that this is a modelfor classification rather than
regression.