Andrew NG机器学习课程笔记(九)

来源:互联网 发布:mysql 多字段distinct 编辑:程序博客网 时间:2024/06/05 02:11

本次课程主要讲述了模型评估与模型选择的一些东西

这次的课程笔记就不再敲公式了,主要是理解

统计学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力,不同的学习方法会给出不同的模型,当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就自然称为学习方法的评估标准。注意,统计学习方法具体采用的损失函数未必是评估时使用的损失函数,当然,让两者一致是比较理想的。

训练误差定义为每一个预测的Y值与训练样本的真实Y值之间的差值求和然后除以样本数目。测试误差类似。(这里根据评估函数不同会不同)

训练误差的大小,对判断给定的问题是不是一个容易学习的问题是有意义的,但本质上不重要,测试误差反映了学习方法对未知的测试数据集的预测能力。显然,给定两种学习方法,测试误差小的方法具有更好的预测能力,是更有效的方法。通常将学习方法对未知数据的预测能力称为泛化性能。

关于泛化能力的具体描述(包括泛化误差上界等)具体请看李航老师的《统计学习方法》16-18页



0 0
原创粉丝点击