chapter 1(1.1, 1.2)

来源:互联网 发布:域名注册哪家好 编辑:程序博客网 时间:2024/05/18 02:33

前言部分:

1. 预处理/特征提取 有利于训练过程的求解,也可以降低计算的复杂度。潜在的问题是在属性降维的时候丢失有用信息。

2. 三大问题:

有监督学习(supervised learning):又可以分成两类,分类(classification)和回归(regression)。

无监督学习(unsupervised learning):聚类(clustering)、density estimation、为了visualization降维。(ps: 第一次听到density estimation,不知道指的是什么)

强化学习(reinforcement learning)


1.1 举例:多项式回归

利用函数sin(2pi*x)生成数据,x取值范围[0,1], 在函数值上加入随机误差生成最后的观察数据。学习过程中寻找参数w使得误差函数最小,在此,采用sum-of-square error:


然后,通过讨论多项式的次数M的取值,提出过度拟合。由于数据集共有10条数据,当多项式次数M=9时,学习到的曲线能完全拟合所有数据,但其与真实的函数sin(2pi*x)相差甚远,主要表现在:训练误差为0,但测试误差极大。而当M=3时,拟合得到的曲线与真实的函数相近。

书中提出了两点有意思的情况:

(1)  M=9应该包括了M=3的情况,所以M=9的拟合效果理应不会比M=3时的差。

(2) 真实函数sin(2pi*x)的多项式展开应该是无穷阶的,所以M越大,拟合的效果理应越好。


细想一下,因为数据是带有噪声的,对此数据集的“拟合”效果越好,并不代表就能越好地拟合真实的函数,而当参数越多、取值越大时,收到噪声的影响也会越大。


分析参数的特点,发现:为了使模型能拟合所有的数据,参数w整体上取值较大。

当训练数据更多时,过度拟合的情况能得到改善。基于此,建议训练集的大小应该是参数个数的若干倍(如5倍或10倍)。书中又特地说了一下,参数个数并不是model complexity的最合适的度量。(这一点未明确)

为了避免过度拟合,在误差函数加上惩罚项以惩罚参数过大的情况:


选取合适的lambda,可以使M=9时也能得到较好的效果。


1.2 概率论

前面部分主要介绍了一些概率论的基本知识,像乘法规则(product rule)、加法规则(sum rule)、贝叶斯定理等。

(未完待续)

0 0