chapter 1（1.1, 1.2）

来源：互联网发布：域名注册哪家好编辑：程序博客网时间：2024/05/18 02:33

前言部分：

1. 预处理/特征提取有利于训练过程的求解，也可以降低计算的复杂度。潜在的问题是在属性降维的时候丢失有用信息。

2. 三大问题：

有监督学习（supervised learning）：又可以分成两类，分类（classification）和回归（regression）。

无监督学习（unsupervised learning）：聚类（clustering）、density estimation、为了visualization降维。（ps: 第一次听到density estimation，不知道指的是什么）

强化学习（reinforcement learning）

1.1 举例：多项式回归

利用函数sin(2pi*x)生成数据，x取值范围[0,1], 在函数值上加入随机误差生成最后的观察数据。学习过程中寻找参数w使得误差函数最小，在此，采用sum-of-square error:

然后，通过讨论多项式的次数M的取值，提出过度拟合。由于数据集共有10条数据，当多项式次数M=9时，学习到的曲线能完全拟合所有数据，但其与真实的函数sin(2pi*x)相差甚远，主要表现在：训练误差为0，但测试误差极大。而当M=3时，拟合得到的曲线与真实的函数相近。

书中提出了两点有意思的情况：

(1) M=9应该包括了M=3的情况，所以M=9的拟合效果理应不会比M=3时的差。

(2) 真实函数sin(2pi*x)的多项式展开应该是无穷阶的，所以M越大，拟合的效果理应越好。

细想一下，因为数据是带有噪声的，对此数据集的“拟合”效果越好，并不代表就能越好地拟合真实的函数，而当参数越多、取值越大时，收到噪声的影响也会越大。

分析参数的特点，发现：为了使模型能拟合所有的数据，参数w整体上取值较大。

当训练数据更多时，过度拟合的情况能得到改善。基于此，建议训练集的大小应该是参数个数的若干倍（如5倍或10倍）。书中又特地说了一下，参数个数并不是model complexity的最合适的度量。（这一点未明确）

为了避免过度拟合，在误差函数加上惩罚项以惩罚参数过大的情况：

选取合适的lambda，可以使M=9时也能得到较好的效果。

1.2 概率论

前面部分主要介绍了一些概率论的基本知识，像乘法规则（product rule）、加法规则（sum rule）、贝叶斯定理等。

（未完待续）

0 0