2.局部加权线性回归和逻辑回归

来源:互联网 发布:mac好用的vpn 编辑:程序博客网 时间:2024/06/05 17:25

1.局部加权线性回归

在讲述局部加权线性回归时,先论述关于,过拟合的概念:

李航老师的《统计学习方法》中给出了很好的定义:过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一个模型对已知数据预测得很好,

但对于未知数据预测很差的想象。欠拟合的概念与此相反,下面用3张图来展示其拟合程度:


从完美拟合所有训练数据的意义上来说,这是一个伟大的模型,当从另一个方面来讲它也许并不是一个非常好的模型,因为没人会认为这个房子大小

的函数是一个对于房价非常好的预测。

>.局部加权回归:


局部加权回归:当你要处理x点时,我会检查数据集合,并且只考虑位于x周围固定区域内的数据点,之后对这些点拟合线性回归



       通常我们会将权值记为:被称为波长函数,它控制了权值距离下降的速率。


比较小时:图中蓝色的线表示距离较远的点权值会降低的非常快。

比较大时:图中红色的线条权值随着距离下降的速度会相对较慢。

我们将样本中的每个点,都采用局部加权回归拟合,这样就会拟合出一条曲线,这条曲线就是我们要拟合的结果。


2.关于前面我的博客中关于线性回归中损失函数的概率论版本的解释:

我们在讨论下非加权线性回归:

                                 

1.     最小二乘模型:在我们预测房屋价格的例子中,假设房屋的价格是一些特征的线性函数加上,即:



表示误差项,,这个误差项可看成是对未建模的效应的捕获,也许房子还有其他特征,比如说房间有多少壁炉,

或者房间是否有花园?或者你也可以把他看成是一种随机的噪声。

1.     现在我们假设这个误差服从均值是0的高斯分布,例如:


我们假定在给定参数的情况下。房屋的价格服从高斯分布,则有:


也就是房屋价格是加上一些服从高斯分布的且方差为噪声的,均值为:;

这个假设的前提是中心极限定理:许多独立同分布(IID)的随机变量值和,趋向于服从高斯分布。

我们来看看似然函数:


假设误差满足IID,怎么样去估计参数呢?

       通常情况下,我们会选择,使得数据出现的可能性尽可能大,亦选择使得似然性最大化,或者说选择参数,使得数据出现的可能性尽量大

对于上面的使然函数我们取对数似然函数如下:

这样我们就可以将问题转换成为求:


的极小值


3.逻辑回归的引入出之《Pattern Recongnitionand Machine Learning》:

Webegin our treatment of generalized linear models by considering the problem
of two-class classification. In our discussion ofgenerative approaches in Section 4.2,

we saw that under rather general assumptions, theposterior probability of class C1
can be written as alogistic sigmoid acting on a linear function of the feature vector
φ so that
p(C1|φ) =y(φ) = σ wTφ (4.87)
with
p(C2|φ) =1 - p(C1|φ).Here σ(·) isthe logisticsigmoid functiondefined by
(4.59). In the terminology of statistics, this model isknown as
logisticregression,
although it should be emphasized that this is a modelfor classification rather than

regression.


1.1  逻辑回归模型适用于标签y是离散的变量的样本,例如y={0,1}.该模型可应用于类似于判别一个人是否生病,判断一个房屋在未来6个月内是否会被卖掉;

      或者建立一个垃圾邮件的过滤器,判断邮件是否是垃圾邮件;预测一个计算机系统在未来24小时内是否会崩溃;

1.2  下面举一个例子来说明使用线性回归来处理分类问题是非常糟糕的;


假设,我们改变假设

针对分类问题,我们会假设

关于g(z)有如下性质:

函数图像如下:



上述假设中,我们已经默认了认为,我们的随机变量满足Bernoulli分布。所以我们可以有以下的定义:


也就是:

我们使用极大似然估计法有:

我们通过选择可以是似然函数取得局部最大值,

首先我们会对似然函数取对数得对数似然函数:


让我我们使用梯度上升算法取得





注意这里的是逻辑回归函数,不是之前的线性回归函数



原创粉丝点击