结构化机器学习项目小结

来源:互联网 发布:js正则匹配字符串 编辑:程序博客网 时间:2024/06/08 16:26


        花了一天时间把吴大佬的专题三《结构化机器学习项目》这块内容看完了,大概是没有什么项目经验,所以理解的不是特别透彻,现简单总结一下,等以后有经验了再来学习应该会恍然大悟、受益颇多吧!


1. 正交化:通过设置独立的参数来进行训练比较,可以有效地找到最佳的模型。


2  单一数字评估指标:通常一个模型,我们需要从不同维度来衡量其性能。比如在数据挖掘中的预测模型中,召回率(recall)和准确率(precision)是两个主要衡量指标,彼此相互制约,其中召回率,又称“查全率”。以搜索为例,A表示检索到的,相关的;B表示检索到的,但是不相关的;c表示未检索到的,但却是相关的;D表示未检索到的,也不相关的。那么查全率就可以表示为A/A+C;而准确率为A/A+B。一般为了统一这两个指标,用F1分数来衡量(即查全率和准确率的调和平均)。对于其他指标,要具体分析。


3. 训练/开发/测试集划分:当数据集很少时,一般是6: 2: 2或者7 : 3;当数据集很大,一般是98%: 1% :1%。当数据集很大时,这么做的原因有二:一是为了训练更好的模型,尽可能把数据放到训练集中;二是设置开发集、测试集的目的是评估模型的性能,只要达到这个目的即可。


4. 可避免偏差(avoidable bias):可避免偏差指的是训练误差与贝叶斯最优误差的差值,一般假设人类最优表现的误差为贝叶斯最佳误差。当可避免偏差很大时,表明模型还没能很好地拟合训练集,需要进一步迭代学习或者训练更复杂的网络。


5. 清楚标注错误的数据:如果训练数据中发现标签标注错误问题,要理性分析该问题是随机的还是系统性的。随机的出错并不会对模型造成太大影响,是否进行更改需要具体问题具体分析。


6. 快速搭建你的第一个系统,并进行迭代:根据目标搭建一个简单系统,然后迭代改进。这样做的好处是让系统的目标更准确、更具体。


7. 迁移学习:指的是把根据之前训练的结果应用到新的问题中,一般用于新问题数据集较少的情况。


8. 多任务学习:构建一个大的网络来同时学习多个任务,比如一个模型可以判断一张图片是否含有交通牌、汽车、行人等。如果是单任务的话,可能需要3个模型。


9. 什么是端到端的深度学习:把一个复杂的问题转变成几个简单的问题来处理,比如人脸识别可以分为“找到人脸区域”、“根据脸型来识别身份”两个问题。因为直接根据一张照片来识别人的身份可能有些困难,但如果只根据脸型来识别身份就把问题简单化了。



         至此,深度学习的前三个专题已经学完了。感谢!

原创粉丝点击