Linear Regression学习笔记

来源：互联网发布：知乎碧桂园森林城市编辑：程序博客网时间：2024/05/02 01:53

回归主要分为线性回归和逻辑回归。线性回归主要解决连续值预测问题，逻辑回归主要解决分类问题。但逻辑回归输出的是属于某一类的概率，因此常被用来进行排序。

1. 线性回归的原理

假定输入χ和输出y之间有线性相关关系，线性回归就是学习一个映射

f : χ \to y

然后对于给定的样本

x，预测其输出：

y^= f (x)

现假定x=(x0,x1…xn)，则预测值为：

h θ (x) = \sum i = 0 n θ i x i = θ T x

在特征

x中加上一维

x0=1表示截距，即：

f (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x n

为了找到最好的权重参数θ，令X到y的映射函数记为

f (x) = h θ (x)

其中

θ = (θ 0, θ 1 \dots θ n)

为了评价模型拟合的效果，对于一个特定的数据集

(X,y)定义一个损失函数来计算预测值与真实值之间的误差：

J θ (X) = J (θ 0, θ 1 \dots θ n) (X) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

即总体误差是所有样本点误差平方和的均值，其中

(x(i),y(i))表示的是第

i个样本点。现在给定数据集

(X,y)，要求解的目标为使得

Jθ(X)最小的

θ，即：

θ = arg min θ {1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2}

假设有一堆样本点(x1,y1)(x2,y2)…(xn,yn)，定义函数hθ(x)来模拟y。假设最后的拟合函数为f(X)=hθ(X)。则损失函数为：

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

整个过程当中，θ,hθ(x),Jθ(X)都会不断变化，但是hθ(x)会越来越接近y，因此Jθ(x)会变得越来越小，最后接近0。

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (x (1)) T (x (2)) T ⋮ (x (n)) T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

X \cdot θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (x (1)) T θ (x (2)) T θ ⋮ (x (n)) T θ ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ h θ (x (1)) T h θ (x (2)) T ⋮ h θ (x (n)) T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (n) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

X \cdot θ - y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ h θ (x (1)) T - y (1) h θ (x (2)) T - y (2) ⋮ h θ (x (n)) T - y (n) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

为了计算函数

Jθ(x)在指定的计算步骤内达到的最小值，每次我们都沿当前点下降最快的方向移动。最快的方向即梯度方向：

(\partial J θ ( x ( i ) ) \partial θ 0, \partial J θ ( x ( i ) ) \partial θ 1 \dots \partial J θ ( x ( i ) ) \partial θ n)

假设z是一个向量，z=⎛⎝⎜⎜⎜⎜z1z2⋮zn⎞⎠⎟⎟⎟⎟。则:zTz=∑ni=0z2i。

故

(X θ - y) T (X θ - y) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2

则

J (θ) = 1 2 (X θ - y) T (X θ - y)

要求梯度，令

\nabla θ J (θ) = 0 ⃗

\nabla θ J (θ) = \nabla θ 1 2 (x θ - y) T (x θ - y) = x T x θ - x T y = 0 ⃗

求得

θ ⃗ = (x T x) - 1 x T y

最终

θ⃗ 是一个

m×1的向量。这样对于简单的线性回归问题，就不需要用前面的迭代方法啦。

如果xTx是不可逆的，说明x当中有特征冗余，需要去掉某些特征。

阅读全文

0 0