结构化机器学习项目小结

来源：互联网发布：js正则匹配字符串编辑：程序博客网时间：2024/06/08 16:26

花了一天时间把吴大佬的专题三《结构化机器学习项目》这块内容看完了，大概是没有什么项目经验，所以理解的不是特别透彻，现简单总结一下，等以后有经验了再来学习应该会恍然大悟、受益颇多吧！

1. 正交化：通过设置独立的参数来进行训练比较，可以有效地找到最佳的模型。

2 单一数字评估指标：通常一个模型，我们需要从不同维度来衡量其性能。比如在数据挖掘中的预测模型中，召回率（recall）和准确率（precision）是两个主要衡量指标，彼此相互制约，其中召回率,又称“查全率”。以搜索为例，A表示检索到的，相关的；B表示检索到的，但是不相关的；c表示未检索到的，但却是相关的；D表示未检索到的，也不相关的。那么查全率就可以表示为A/A+C;而准确率为A/A+B。一般为了统一这两个指标，用F1分数来衡量（即查全率和准确率的调和平均）。对于其他指标，要具体分析。

3. 训练/开发/测试集划分：当数据集很少时，一般是6: 2: 2或者7 : 3；当数据集很大，一般是98%: 1% :1%。当数据集很大时，这么做的原因有二：一是为了训练更好的模型，尽可能把数据放到训练集中；二是设置开发集、测试集的目的是评估模型的性能，只要达到这个目的即可。

4. 可避免偏差(avoidable bias)：可避免偏差指的是训练误差与贝叶斯最优误差的差值，一般假设人类最优表现的误差为贝叶斯最佳误差。当可避免偏差很大时，表明模型还没能很好地拟合训练集，需要进一步迭代学习或者训练更复杂的网络。

5. 清楚标注错误的数据：如果训练数据中发现标签标注错误问题，要理性分析该问题是随机的还是系统性的。随机的出错并不会对模型造成太大影响，是否进行更改需要具体问题具体分析。

6. 快速搭建你的第一个系统，并进行迭代：根据目标搭建一个简单系统，然后迭代改进。这样做的好处是让系统的目标更准确、更具体。

7. 迁移学习：指的是把根据之前训练的结果应用到新的问题中，一般用于新问题数据集较少的情况。

8. 多任务学习：构建一个大的网络来同时学习多个任务，比如一个模型可以判断一张图片是否含有交通牌、汽车、行人等。如果是单任务的话，可能需要3个模型。

9. 什么是端到端的深度学习：把一个复杂的问题转变成几个简单的问题来处理，比如人脸识别可以分为“找到人脸区域”、“根据脸型来识别身份”两个问题。因为直接根据一张照片来识别人的身份可能有些困难，但如果只根据脸型来识别身份就把问题简单化了。

至此，深度学习的前三个专题已经学完了。感谢！

阅读全文

0 0