机器学习基石-Linear Regression

来源：互联网发布：占中事件知乎编辑：程序博客网时间：2024/06/05 10:51

大纲

这里写图片描述

当y∈R时，我们就成为机器学习问题为回归问题

h (x) = w T x

这里写图片描述
线性回归问题就是在空间中，寻找一个线或者超平面，满足点到超平面拥有最小的误差

这里写图片描述
回归问题一般用square Error作为损失函数，所以我们的算法的目的就是如何最小化Ein(w)

E i n (w) = 1 N ∥ X W - y ∥ 2

我们可以知道

Ein(w)是一个连续可导的凸函数，所以在

w满足

▿Ein(w)=0的时候取得最小值

▿ E i n (w) = 2 N (X T X W - X T y)

我们令▿Ein(w)=0，则有

这里写图片描述

这里写图片描述

如何证明在数据足够大的时候，Ein¯≈Eout¯呢？

这里写图片描述

当N足够大时，Ein¯ 和 Eout¯都趋向于noise level,所以线性回归问题模型是可以学习的

我们知道二分类问题的 0/1 损失很难被优化，是一个NP难问题，但是线性回归的的square损失很容易被优化，因为，{-1，+1}也属于R,所以我们很自然的想到能否用square代替0/1损失进行优化，来更好的优化问题。

这里写图片描述

这里写图片描述

我们可以看到，square损失是0/1损失的上界

这里写图片描述

这里我们用了一个更宽松的上界来bound住包外误差，优化这个宽松的上界是很简单的，一般来说这个算法可以取得不错的效果，所以我们可以跑一次linear Regression来得到W,作为PLA算法的初始W,可以加速算法收敛

阅读全文

0 0