斯坦福机器学习教程学习笔记之3

来源：互联网发布：凡科建站域名绑定编辑：程序博客网时间：2024/05/16 05:04

本系列其他部分：

斯坦福机器学习教程学习笔记之1

斯坦福机器学习教程学习笔记之2

斯坦福机器学习教程学习笔记之3

斯坦福机器学习教程学习笔记之4

第十章应用机器学习的建议

1.决定下一步做什么（如何调整模型/机器学习诊断法）

当我们运用训练好了的模型来预测未知数据的时候发现有较大的误差，我们下一步可以

做什么？（括号内为针对待解决的问题）

(1)获得更多的训练实例——通常是有效的，但代价较大，下面的方法也可能有效，可考虑先采用下面的几种方法（高方差）

(2)尝试减少特征的数量（高方差）

(3)尝试获得更多的特征（高偏差）

(4)尝试增加多项式特征（高偏差）

(5)尝试减少归一化程度λ（高偏差）

(6)尝试增加归一化程度λ（高方差）

2.评估一个假设

为了检验算法是否过拟合，我们将数据集划分成训练集(training set)和测试集(test set)，通常70%作为训练集，30%作为测试集，在划分之前要保证数据的随机排序。

3.模型选择和交叉验证集(Model Selection and Train_Validation_Test Sets)

显然越高次数的多项式模型越能够适应我们的训练数据集，但是适应训练数据集并不代表着能推广至一般情况，我们应该选择一个更能适应一般情况的模型。我们需要使用交叉验证集来帮助选择模型。

即：使用60%的数据作为训练集，使用 20%的数据作为交叉验证集，使用 20%的数据作为测试集。

模型选择的方法为：

(1)使用训练集训练出10个模型

(2)用10个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）

(3)选取代价函数值最小的模型

(4)用步骤3中选出的模型对测试集计算得出推广误差（代价函数的值）

4.诊断偏差和方差(Diagnosing Bias vs. Variance)

训练集误差和交叉验证集误差近似时：偏差/欠拟合；

交叉验证集误差远大于训练集误差时：方差/过拟合。

5.归一化和方差偏差(Regularization and Bias_Variance)

我们选择一系列的想要测试的λ值，通常是 0-10 之间的呈现2倍关系的值（如：0, 0.01, 0.02, 0.04, 0.08, 0.15, 0.32, 0.64, 1.28, 2.56, 5.12, 10 共12个）。我们同样把数据分为训练集、交叉验证集和测试集。

选择λ的方法为：

(1)使用训练集训练出12个不同程度归一化的模型；

(2)用12模型分别对交叉验证集计算的出交叉验证误差；

(3)选择得出交叉验证误差最小的模型；

(4)运用步骤3中选出模型对测试集计算得出推广误差。

我们也可以同时将训练集和交叉验证集模型的代价函数误差与λ的值绘制在一张图表上：

当λ较小时，训练集误差较小（过拟合）而交叉验证集误差较大；随着λ的增加，训练集误差不断增加（欠拟合），而交叉验证集误差则是先减小后增加。

6.学习曲线(LearningCurves)

学习曲线是学习算法的一个很好的合理检验（sanity check）。学习曲线是将训练集误差和交叉验证集误差作为训练集实例数量（m）的函数绘制的图表。

思想是：当训练较少行数据的时候，训练的模型将能够非常完美地适应较少的训练数据，但是训练出来的模型却不能很好地适应交叉验证集数据或测试集数据。

利用学习曲线识别高偏差/欠拟合：作为例子，我们尝试用一条直线来适应下面的数据，可以看出，无论训练集有多么大误差都不会有太大改观，也就是说在高偏差/欠拟合的情况下，增加数据到训练集不一定能有帮助。见下图。

利用学习曲线识别高方差/过拟合：假设我们使用一个非常高次的多项式模型，并且归一化非常小，可以看出，当交叉验证集误差远大于训练集误差时，往训练集增加更多数据可以提高模型的效果。也就是说在高方差/过拟合的情况下，增加更多数据到训练集可能可以提高算法效果。见下图。

7.决定下一步做什么

神经网络的方差和偏差：

使用较小的神经网络，类似于参数较少的情况，容易导致高偏差和欠拟合，但计算代价较小使用较大的神经网络，类似于参数较多的情况，容易导致高方差和过拟合，虽然计算代价比较大，但是可以通过归一化手段来调整而更加适应数据。

通常选择较大的神经网络并采用归一化处理会比采用较小的神经网络效果要好。

对于神经网络中的隐藏层的层数的选择，通常从一层开始逐渐增加层数，为了更好地作选择，可以把数据分为训练集、交叉验证集和测试集，针对不同隐藏层层数的神经网络训练神经网络，然后选择交叉验证集代价最小的神经网络。

第十一章机器学习系统的设计

1.首先要做什么

2.误差分析(error analysis)

构建一个学习算法的推荐方法为：

(1)从一个简单的能快速实现的算法开始，实现该算法并用交叉验证集数据测试这个算法

(2)绘制学习曲线，决定是增加更多数据，或者添加更多特征，还是其他选择

(3)进行误差分析：人工检查交叉验证集中我们算法中产生预测误差的实例，看看这些实例是否有某种系统化的趋势

3.偏斜类的误差度量(Error Metrics for Skewed Classes)

4.查全率和查准率之间的权衡

如果我们希望只在非常确信的情况下预测为真（肿瘤为恶性），即我们希望更高的查准率，我们可以使用比0.5 更大的阀值，如0.7，0.9。这样做我们会减少错误预测病人为恶性肿瘤的情况，同时却会增加未能成功预测肿瘤为恶性的情况。

如果我们希望提高查全率，尽可能地让所有有可能是恶性肿瘤的病人都得到进一步地检查、诊断，我们可以使用比0.5 更小的阀值，如0.3。

更多关于P-R曲线的只是参见周志华-机器学习教材。

1 0