跟着Andrew Ng挑战Machine Learning（第一周）：概念+单一变量线性回归

来源：互联网发布：lolking软件编辑：程序博客网时间：2024/06/05 06:17

声明：
　　开个新坑，督促自己坚持学习。这个系列同样是学习心得以及总结，用到的资料都是从吴恩达大神在Coursera上的课程中摘下来的。另外，依照Coursera的要求，保证学员的学习质量，在这一系列心得中不会出现与Coursera习题答案有关的代码。
　　为了帮助自己更深刻的理解，除了一些人名、引用或者算法的缩写，比如‘BFGS’、‘L-BFGS’等等之外，尽量使用中文。这一系列的文章结构都是按照大神的课程来的，理解成翻译其实也没毛病。

　　建议有条件的童鞋去Coursera上学习，不仅免费还精心准备了很多联系帮助理解，以下是链接（看视频需要翻墙）：
　　https://www.coursera.org/learn/machine-learning/

什么是机器学习？

　　有很多种说法，大致意思都是：“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”
　　下面是一种较常见的引用，不明觉厉，仅是应用的话并不用纠结于定义。

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

　　通常来说，机器学习主要分为监督学习（Supervised Learning）和非监督学习（Unsupervised Learning）。事实上最近我还看到的半监督学习（Semi-supervised Learning），等以后确实了解了再总结一下。

监督学习

　　监督学习应具备几个特点，即有一个用于训练（Training）的数据集合，并且明确的知道正确的输出结果应该是怎样的形势，而且清楚的知道训练集的数据与输出结果之间的关系。简而言之，当涉及到“训练”的时候八九不离十就是监督学习了。

　　监督学习又进一步被分为两类问题，分别是“回归问题（Regression）”和“分类问题（Classification）”。这两类问题主要是由输出的结果进行区分：“回归问题”的输出结果应该是一个连续的函数，比如，根据房屋面积预测房价（实际上和房价有关的特征并不仅仅是面积）；“分类问题”的输出结果应该是离散，比如，根据肿瘤的大小预测该肿瘤是恶性的还是良性的。

非监督学习

　　通过非监督学习我们可以解决一些我们并不清楚其结果应该是怎想的问题。通过聚类（Clustering）或者说是归纳的方法，我们可以发现特征变量（Variables）和数据集之间的某些关系。

　　例：对于基因序列的研究，通过非监督学习，我们可以发现某些基因片段与生命延长、遗传疾病、性格特征……等表现形式之间关系。

模型表示

　　概念讲完了，接下来首先学习“监督学习”。开始具体的学习之前需要对符号做一些规定和说明。对于接下来的课程我们做如下规定，以根据房屋面积预测房价为例：

　　x⃗ (i)：输入变量（输入特征），可以是一个向量。

　　X：表示输入特征的集合。

　　y(i)：输出变量（目标变量），在此例中我们用 y(i) 表示 x(i) 对应的预期房价。

　　Y：表示输出集合。

　　(x⃗ (i),y(i))：表示一个训练实例。

　　m：表示训练实例的总数。

　　hθ(x⃗ )：要拟合（Fitting）的函数，由于历史的原因我们称 hθ(x⃗ ) 为假设（Hypothesis），由于我不清楚最标准的翻译是什么，以后只用符号来表示好了。
　　
　　J(θ0,θ1,...,θn)：成本函数，或者说时损失函数。

　　α：学习速率。
　　
　　为了更好的理解监督学习，我们可以说，实际上监督学习的目的就是通过学习大量经验数据找到一个“合适”的预测函数进行预测，即 h：x→y 来表示这个函数。学习的过程可由下图大致表示：
　　
Model Representation
　
　　当我们用 hθ(x⃗ ) 来预测 y 时，若 y 为连续型变量，那么这就是一个“回归问题”；若 y 为离散变量，则这是一个“分类问题”。

成本函数

　　成本函数的功能是用于表示 hθ(x⃗ ) 的合适程度，也就是预测的精确度。在当前的例子中，表示为：
　　

J (θ 0, θ 1) = 1 2 m \sum i = 1 m (y^(i) - y (i)) 2 = 1 2 m \sum i = 1 m (h θ (x ⃗ (i)) - y (i)) 2

　　容易看出，这个公式和“方差”很像，仅仅多了一个 (12) 而已。实际上，此处有没有 (12) 都不影响成本函数所表示的意义，可以直接把成本函数当成方差看待。加上 (12) 的目的是为了让后文所讲的“梯度下降”算法更容易计算而已。通过下图可以更加直观的理解：
　　
Cost Function Fixed
　
　　“x”表示训练实例，J(θ0,θ1) 即可以理解为图中所有红色垂直线段长度之和。由此很容易理解，拟合度最高的 h(x)，其 (θ0,θ1) 对应的 J(θ0,θ1) 必然是 minJ(θ)。

更加直观的理解成本函数

　　最理想的情况，所有的训练实例都在一条直线上，如图，此时 θ1=1，θ0=0，J(θ0,θ1)=0。

Cost Function intuition 001
　
　　假设 θ0 并不做变化，仅 θ1 变化时，我们可以很容易的得到这样一个规律：当 θ1 越大时，J(θ0,θ1) 越大；当 θ1 越小时，J(θ0,θ1) 越小，如下图。可以看出，当 θ1 取1时，J(θ1) 为0，对应的 h(x) 就是我们所期望的结果。

Cost Function intuition 002
　
　　当 θ0，θ1 一起变化时，我们可以做一个三维的图来表示，或者做一个二维的等高线图进行表示：以 θ0 为x轴，θ1 为y轴，J(θ0,θ1) 的值用不同的颜色进行表示，如下右图。在此前提下来理解有两个特征变量的情况下的最佳 hθ(x⃗ )。

Cost Function intuition 003
　
　　左图中的斜线为右图中点 (θ0,θ1)=(800,−0.15) 对应的 hθ(x⃗ )，很明显 hθ(x⃗ ) 与训练集拟合的效果并不好。

Cost Function intuition 004
　
　　上图更进一步，选择的点距中心更近了一步 (θ0,θ1)=(360,0)，事实上拟合的效果也很差，即使严格意义上来说进步了。

Cost Function intuition 005
　
　　这一次，我们选到了中心，可以看到中心点对应的 hθ(x⃗ ) 拟合效果较好，与训练集的分布趋势大致相同。那么，计算机是怎么实现逐渐向中心点靠拢的呢？

梯度下降算法

注：这一部分如果有微积分相关的知识就很容易理解了，如果没有相关知识也没关系，并不会影响实际得应用。

　　根据前文的内容，我们知道最合适的 hθ(x⃗ ) 其对应的 J(θ0,θ1) 的值最小，即 J(θ0,θ1)=minJ(θ0,θ1)。梯度下降算法的目的是使 J(θ0,θ1) 能够按下降最快的方向（即梯度方向）收敛于极小值。如下图：
　　
Gradient Descent 001
　
注：上图所示的情况得到的极小值和其初始状态有关，不一定就是 minJ(θ,θ)，只有凸函数（convex function）得到的极小值才是全局的最小值，。

核心算法

重复做如下动作至 J(θ0,θ1) 收敛 :

θ j : = θ j - α \partial \partial θ j J (θ 0, θ 1)

　“:=”表示赋值的意思。

　　由于这一章只讨论单一变量的线性回归问题，所以 j∈0,1。需要注意的是，θj 需要同时更新。如果没有同时更新，结果即使正确，也只是因为运气。

　　α 为前文介绍的学习速率，所以当 α 越大下降的幅度越大，反之则越小。确定 α 并不是一个容易的事情，如果 α 的值过小，虽然一定可以收敛，但是消耗的时间将会很长；如果 α 的值过大，则很有可能无法收敛，通过下图就可以直观的理解这两种情况。
　　
Gradient Descent 002
　

梯度下降算法在单一变量线性回归中的应用

确定特征 (θ0,θ1) 并不复杂：

hθ(x⃗ )=θ0+θ1x1
重复至收敛 {
$⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) θ 1 : = θ 1 - α 1 m \sum i = 1 m ((h θ (x (i)) - y (i)) x (i) 1)$ }

θj 推导：

Gradient Descent in Linear Regression
　
　　在括号中 θ0，θ1 已经分开，如果我们假设 x0=1 那么 θ0 也可以写成 θ1 的形势，这其实就是下一篇多重变量回归问题的公式了。
　　
　　另外，需要提一下，这种同一时间同时更新所有的特征变量θi 的方式叫做批量梯度下降（Batch Gradient Descent）。下面是一张实际运行的结果图，帮助直观的理解梯度下降算法。
　　
　　 Gradient Descent in Linear Regression Result
　　

0 0