【Coursera Machine Learning】 Week3 学习笔记

来源：互联网发布：淘宝每年收入排行榜编辑：程序博客网时间：2024/06/10 02:46

五、逻辑回归（Logistic Regression）

在分类问题中，我们要预测变量的y是离散的值，所有我们将使用一种叫逻辑回归（Logistic Regression）算法。

5.1 分类和表示（Classification and Representation）

1、在分类问题中，我们尝试预测的是结果是否属于某一个类（例如正确或错误）。分类问题的例子有
（1）判断一封电子邮件是否是垃圾邮件
（2）判断一次金融交易是否是欺诈
（3）区别一个肿瘤是恶性还是良性

2、我们从二元分类问题开始考虑，将因变量可能属于的两个类分别称为负向类（negative class）和正向类（postiive class），则因变量y∈{0,1}，其中0表示负向类，1表示正向类。

3、如果我们用线性回归算法来解决分类问题，对于分类，y取值为0或者1，但如果你使用的是线性回归，那么假设函数的输出值可能远大于1，或者远小于0，即使所有训练样本的标签y都等于0或1。

4、逻辑回归算法的性质：输出值永远在0到1之间。

5.2 假设函数

1、逻辑回归模型的假设函数

h θ (x) = g (θ T x) g (z) = 1 1 + e - z

其中g函数是sigmoid函数，函数图形如下：

将上面两个合在一起，就得到了逻辑回归模型的假设函数：

h θ (x) = 1 1 + e - θ T x

2、hθ(x)的作用是对于给定的输入变量，根据选择的参数计算输出变量y=1的概率。

5.3 判定边界（Decision Boundary）

1、在逻辑回归中，我们预测：
（1）当hθ(x)≥0.5，预测y=1
（2）当hθ(x)<0.5，预测y=0

2、模型实例

设置参数θ是向量[-3 1 1]，判断边界是直线y=−3+x1+x2，则当−3+x1+x2≥0时，模型预测y=1

设置参数θ是向量[-1 0 0 1 1]，判断边界是一个圆点在原点且半径为1的圆形。

5.4 代价函数

1、如果我们用线性回归函数的代价函数，我们得到的代价函数将是一个非凸函数（non-convex function）

导致我们的代价函数有多个局部最小值，将影响我们使用梯度下降算法寻找全局最小值。

2、我们重新定义逻辑回归的代价函数

J (θ) = 1 m \sum i = 1 m C o s t (h θ (x (i)), y (i)) C o s t (h θ (x), y) = {- l o g (h θ (x)) - l o g (1 - h θ (x)) if y = 1 if y = 0

3、hθ(x)跟Cost(hθ(x),y)的关系
（1）当y=1时，Cost(hθ(x),y)=−log(hθ(x))

（2）当y=0时，Cost(hθ(x),y)=−log(hθ(1−x))

4、构建Cost(hθ(x),y)的特点
（1）当实际的y=1且hθ也为1时代价为0，当y=1但hθ不为1时代价随着hθ的变小而变大
（2）当实际的y=0且hθ也为0时代价为0，当y=1但hθ不为1时代价随着hθ的变大而变大

5、简化后的代价函数

J (θ) = - 1 m [\sum i = 1 m y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))]

5.5 梯度下降

（1）Hypothesis：

h θ (x) = 1 1 + e - θ T x

（2）

CostFunction:

J (θ) = - 1 m [\sum i = 1 m y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))]

（3）

Goal:

m i n i m i z e θ J (θ)

（4）梯度下降算法

repeat} until convergence: {θ j : = θ j - α \partial \partial θ j J (θ) (simultaneously update all)

将

J(θ)的偏导数带入可得

repeat} until convergence: {θ j : = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) j (simultaneously update all)

5.6 多类别分类（Multiclass Classification）

1、一对多（one-vs-all）方法：逻辑回归可以将数据一分为二（正类和负类），则我们分别将每一种类别都作为一次正类区分所有的类别，从而实现多类别分类。

2、原理
现在我们有一个训练集，用三角形表示y=1，方框表示y=2，叉叉表示y=3，下面我们要做的就是使用一个训练集，将其分成三个二元分类问题。

首先，我们从用三角形代表的类别1开始，类别1设定为正类，类别2和类别3定为负类，我们创建一个新的训练集，拟合出一个合适的分类器h(1)θ(x)。

然后，我们设定类别2为正类，类别1和类别3为负类，创建一个新的训练集，拟合出一个新的分类器h(2)θ(x)，

最后，我们设定类别3为正类，类别1和类别2为负类，创建第三个训练集，拟合出分类器h(3)θ(x)。

我们最终得到一个模型h(i)θ(x)(i=1,2,3)

在我们需要做预测时，我们将所有分类器都运行一遍，然后对每一个输入变量，选择最高可能性的输出变量。

也就是说，对于逻辑回归分类器h(i)θ(x)，我们在三个分类器里面输入一个新的x值，然后我们选择一个让h(i)θ(x)最大的i，作为y=i的预测结果。

六、正则化（Regularization）

6.1 过拟合（overfitting）

第一个模型没有很好拟合训练数据，我们把这个称为欠拟合（underfitting），或者另一个术语高偏差（high bias）；
第二个模型很好拟合了训练数据，我们称为恰好拟合（Just right）。
第三个模型非常好的拟合训练数据，但过于强调拟合原始数据，我们称为过拟合（overfitting），或者高方差（high variance）；

1、过拟合：如果我们有太多的变量，使得假设函数很好的拟合率训练数据集，但是无法泛化到新的数据样本中，以至于无法预测正确的数据样本结果（泛化是指一个假设模型能够应用到新样本的能力）。

2、解决过拟合的方法：
（1）减少特征变量的数量，手工选择保留哪些特征，或者使用一些模型选择算法来处理。
（2）正则化，保留所有特征，但是减少参数的大小。

6.2 正规化代价函数

为了防止过拟合，我们对代价函数进行正规化：

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

λ称为正则化参数（Regularization Parameter），如果选择的正则化参数

λ过大，则会把所有的参数都最小化了，导致模型变成

hθ(x)=θ0。

为什么要增加一项λ∑j=1nθ2j？

因为一个模型中真正重要的参数可能并不多，而我们的假设函数里面包含很多参数，为了使某些不重要的参数不起作用，我们可以将其尽可能近似于0，于是我们通过控制λ的大小来达到这个目的。

所以对于正则化，我们取一个合理的λ的值，就能很好的应用正则化。

6.3 正则化线性回归（Regularized Linear Regression）

1、正则化线性回归的代价函数

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

2、梯度下降算法
由于θ0不参与正则化，所以我们将梯度下降算法分成两种情形

repeat} until convergence: {θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) 0 θ j : = θ j - α [1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) j + λ m θ j] (simultaneously update all)

对第二个式子进行调整可得

θ j : = θ j (1 - λ m α) - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) j

可以看出正则化线性回归的梯度下降算法的变化在于，每次都在原有算法更新规则的基础上令

θ值减少了一个额外的值。

3、正规化正规方程

θ = (X T X + λ ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 00 ⋮ 0 01 ⋮ 0 \dots \dots \dots 00 ⋮ 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥) - 1 X T y

其中矩阵的大小是

(n+1)∗(n+1)。

6.4 正则化逻辑回归（Regularized logistics regression）

1、我们同样也给代价函数增加一个正则化的表达式，代价函数为

J (θ) = - 1 m [\sum i = 1 m y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j

2、梯度下降算法

repeat} until convergence: {θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) 0 θ j : = θ j - α [1 m \sum i = 1 m (h θ (x (i)) - y (i)) \cdot x (i) j + λ m θ j] (simultaneously update all)

0 0