8-Advice for Applying Machine Learing

来源：互联网发布：thinkpad安装软件编辑：程序博客网时间：2024/05/21 02:51

如何选择机器学习算法、系统

1 - Deciding What to Try Next 在模型遇到问题时该怎么办

当你用regularized linear regression 实现了housing prices predict问题之后，发现你的模型在测试新数据时出现非常大的误差。
这时可能的措施如下：

但是往往你不知道到底该选择哪一种方法，而通常逐个尝试这些方法可能会浪费大量的时间。

Machine learning diagnostic：

Diagnostic：

一种能够知道你的学习算法是否有效，并且知道如何更好的改进你的算法的测试方法。
Diagnostic 需要一定的时间去实现，但是这绝对不会是在浪费时间！

将数据集划分成训练集（70%）和测试集（30%），用训练集去训练模型，用测试集去评价模型的效果。

step 1: 学习出参数 θ （最小化训练集的误差J(θ)）
step 2: 计算测试集的误差

为了避免 underfitting 和overfitting 的问题，引入 cross validation set，即交叉验证数据集。将数据集按6:2:2的比例分成training set、cross validation set 和 testing set三部分。

error计算公式如下：
error

模型选择方法：

Bias：hypothesis的平均估计结果所能够逼近学习目标的程度
Variance：面对同样规模的不同数据集时，算法的估计结果发生变动的程度。

从图像上给一个直观的印象，什么是 bias 和 variance：
bias&variance

dimension对拟合效果的影响：

λ 对拟合效果的影响：
lambda

计算公式：
formula

λ的选择方法：
- 从0，0.01起，每次往上 x2 ，到10.24总共可以试12次。
- 用这12个 λ 计算出对应的J(θ)和Jcv(θ)
- 选择令 J(θ) 最小的θ作为参数，然后取出另Jcv(θ)最小的一组定为最终的λ。

如图为 λ 对误差的影响：
error

0 0