《机器学习》——读书笔记2

来源：互联网发布：手机模拟器连发软件编辑：程序博客网时间：2024/06/05 16:32

事实证明，寒假在家也并不能高效工作，年前准备过年，年后没事了，想动手却冻手，幸好姥姥家里暖和，过年姥姥又伤风感冒，姥姥今年74，姥爷今年81，今天本来到邢台的，但是放心不下又回来了，愿姥姥姥爷健康长寿，别无他求。

第 3 章线性模型

3.1 基本形式

给定由d个属性描述的实例x=(x1;x2;...;xd),线性模型试图学得一个通过属性的线性组合来进行预测的函数，即f(x)=w1x1+w2x2+...+wdxd+b用向量形式写成f(x)=wTx+b.
由于w直观表达了个属性在预测中的重要性，因此线性模型有很好的可解释性。

3.2 线性回归

给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1;xi2;...;xid),yi∈R. “线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。
对离散属性，若属性值间存在“序”关，可通过连续化将其转化为连续值；若属性值间不存在序关系，假定有k个属性值，则通常转化为k维向量。

先考虑最简单的情形：输入属性的数目只有一个
线性回归试图学得

f (x i) = w x i + b, 使 得 f (x i) ≃ y i

利用均方误差最小化确定w,b

(w *, b *) = arg min (w, b) \sum i = 1 m (f (x i) - y i) 2 = arg min (w, b) \sum i = 1 m (y i - w x i - b) 2

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
求解w和b使

E(w,b)=∑mi=1(yi−wxi−b)2最小化的过程，称为线性回归模型的最小二乘“参数估计”。将

E(w,b)分别对w和b求导，得

\partial E ( w , b ) \partial w = 2 (w \sum i = 1 m x 2 i - \sum i = 1 m (y i - b) x i), \partial E ( w , b ) \partial b = 2 (m b - \sum i = 1 m (y i - w x i)),

令上式得零得到w和b最优解的闭式解

w = \sum m i = 1 y i ( x i - x ¯ ) \sum m i = 1 x 2 i - 1 m ( \sum m i = 1 x i ) 2, b = 1 m \sum i = 1 m (y i - w x i),

更一般的情形，样本由d个属性描述
此时我们试图学得

f (x i) = w T x i + b, 使 得 f (x i) ≃ y i

这称为“多元线性回归”
把数据集D表示为大小为

m×(d+1)大小的矩阵

X，

X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 \dots \dots ⋱ \dots x 1 d x 2 d ⋮ x m d 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x T 1 x T 2 ⋮ x T m 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

再把标记也写成向量形式

y=(y1;y2;…;ym)，则类似均方误差，有

w^* = arg min w^(y - X w^) T (y - X w^)

令

Ew^=(y−Xw^)T(y−Xw^),对

w^求导得到

\partial E w ^ \partial w ^= 2 X T (X w^- y) （ 这 里 对 矩 阵 求 导 不 懂 ）

当

XTX为满秩矩阵时，令上式为零可得

w^* = (X T X) - 1 X T y

令

x^i=(xi;1),则最终学得的多元线性回归模型为

f (x^i) = x^T i (X T X) - 1 X T y

然而，现实任务中XTX往往不是满秩矩阵，此时可解出多个w^。选择哪一个解作为输出，将由悬系算法的归纳偏好决定，常见的做法是引入正则化项。

线性模型的变形
线性模型的预测值逼近真是标记y时，就得到线性回归模型。
线性回归模型简写为

y = w T x + b

令模型预测值逼近y的衍生物，例如：

lny=wTx+b——”对数线性回归”，实质上在求取输入空间到输出空间的非线性函数映射。

广义线性模型
考虑单调可微函数g(.)，令y=g−1(wTx+b)。

3.3 对数几率回归

上一节讨论使用线性模型进行回归学习，对于分类任务，只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
对于二分类任务，可通过“单位阶跃函数”把线性回归模型产生的预测值z=wTx+b对应到输出标记y∈{0,1}。

“ 单 位 阶 跃 函 数 ” y = ⎧ ⎩ ⎨ ⎪ ⎪ 0, 0.5, 1, z < 0; z = 0; z > 0;

但是单位阶跃函数不连续，不可直接作为“广义线性模型”中的

g−(.)，可用对数几率函数

y = 1 1 + e - z

替代之。

对数几率函数是一种“Sigmoid函数”，它将z值转化为一个接近0或1的y值，并且其输出值在z=0附近变化很陡。
将对数几率函数代入

y = 1 1 + e - ( w T x + b ) . (1) ln y 1 - y = w T x + b

若将y视为样本

x作为正例的可能性，则1-y时期反例可能性，故“对数几率”为：

ln y 1 - y

小结：（1）式是在用线性回归模型的预测结果去逼近真实标记的对数几率，因此，其对应的模型称为“对数几率回归”，是一种分类学习方法。
优点：
- 直接对分类可能性进行建模，无需实现假设数据分布，这样就避免了假设分布不准确所带来的问题。
- 不仅预测出“类别”，还可得到近似概率预测。
- 对率函数是任意阶可导的凸函数，现有的许多数值优化算法都可直接用于求取最优解。

确定（1）中的w和b（这里不太懂）
若将式（1）中的y视为类后验概率估计p(y=1|x),则

ln p ( y = 1 | x ) p ( y = 1 | x ) = w T x + b p (y = 1 | x) = e w T x + b 1 + e w T x + b p (y = 1 | x) = 1 1 + e w T x + b

于是，通过“极大似然法”估计w和b。对率回归模型最大化“对数似然”

l (w, b) = \sum i = 1 m ln p (y i | x i; w, b) (2)

即令每个样本属于其真实标记的概率越大越好。
为便于讨论，令

β=(w,b),x^=(x;1),则

wTx+b可简写为

βTx^.再令

p1(x^;β)=p(y=1|x^;β),p0(x^;β)=p(y=0|x^;β)=1−p1(x^;β)，则(2)式中的似然项可重写为

p (y i | x i; w, b) = y i p 1 (x^i; β) + (1 - y i) p 0 (x^i; β)

最小化（2）式等价于最小化

l (β) = \sum i = 1 m (- y i β T x^i + ln (1 + e β T x^i))

3.4 线性判别分析

Linear Discriminant Analysis，LDA 一种经典的线性学习方法，用于二分类问题。亦乘“Fisher”判别分析。
LDA思想：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

假设条件：给定数据集D={(xi,yi)}mi=1,yi∈{0,1},令Xi、μi、Σi分别表示第i∈{0,1}类示例的集合、均值向量、协方差矩阵。
思想实现：欲使同类样例的投影点尽可能接近，可以让同类样例投影点的协方差尽可能小，即wTΣ0w+wTΣ1w尽可能小；而欲使异类样例的投影点尽可能远离，可以让类中心之间的距离尽可能大，即||wTμ0−wTμ1||22尽可能大。即最大化下式

J = w T μ 0 - w T μ 1 | | 2 2 w T Σ 0 w + w T Σ 1 w (3)

定义“类内散度矩阵”

S w = Σ 0 + Σ 1 = \sum x \in X 0 (x - μ 0) (x - μ 0) T + \sum x \in X 1 (x - μ 1) (x - μ 1) T

以及“类间散度矩阵”

S b = (μ 0 - μ 1) (μ 0 - μ 1) T

则式（3）可重写为

J = w T S b w w T S w w

这就是LDA欲最大化的目标，即

Sb与

Sw的“广义瑞利商”

0 0