coursera Machine Learning 第六周 测验quiz2答案解析 Machine Learning System Design

来源:互联网 发布:blct升级数据 编辑:程序博客网 时间:2024/06/06 00:35


1.0.85

解析:求recall得85/(85+15)=0.85


2.选择AD

解析:题意说明给于大量的数据会对以下两种算法有好的表现。A是有中众多特征值,需要大量的数据进行训练,故正确。B没有用正则化的模型大部分是underfiting,high bias不必有大数据训练。C与B同样是high bias,应该适当增加特征量。D特征量能很好的预测输出值说明算法适当,不会underfit但可能overfit,所以应该给予大数据。


3.选择C

解析:把阈值从0.5调到0.9,显然预测为1的数量减少,被预测成1而实际为1的概率提高了,所以precision(准确率)提高了,recall(召回率)降低了,accuracy(正确率)不好判断吧。


4.选择ABC

解析:题意有99%不是垃圾邮件(y=0),1%是垃圾邮件(y=1)。A预测全部y=0,则正确率=(0+99%)/1=99%正确。B trainingset 和cross validation set(验证集))不一样所以无法给出两者类似的结果,故错误。C 好的分类器应该既有高准确率又有高召回率正确。D和B同一道理,虽然可以对训练集有99%的正确率,可其是过拟合无法很好得预测验证集,故正确。


5选择CE

解析:A如果欠拟合增加数据量没有帮助,故错误。B吴老师给出建议不要以开始就收集大量数据,先快速实现某个简单的算法,再去完善它,故错误。C在偏斜的情况下正确率已经不能很好衡量算法优劣,应该使用F1=2*(R*P)/(R+P),故正确。D不一定非得0.5作为阈值,应视解决问题而定,故错误。E使用大样本一般不会造成过拟合,因为过拟合会因为大量数据而得到缓解,故正确。


如果对你有所帮助,谢谢您的资助^_^

(一块不少,五块更好)


阅读全文
0 0
原创粉丝点击