整理：统计学习-1

来源：互联网发布：少儿编程课程要会什么编辑：程序博客网时间：2024/06/07 05:00

最近准备把李航的《统计学习方法》这本书学一遍，给机器学习入个门。

第一章已经搞完了，主要的内容就是统计学习的基本概念和理论，搞清楚什么是统计学习。那么什么是统计学习呢，我的理解就是，以数据为基础对象，运用各种统计学习方法构建模型来拟合这些数据，得到的模型能对新的输入数据预测出较为合理的输出，这个模型就是我们想得到的成果。学习的过程就相当于在已知的数据中找规律，所以可以用概率分布来构建模型。

统计学习的组成分为：监督学习(surpervised learning)、非监督学习、半监督学习和强化学习。这里主要讨论监督学习。监督学习的学习方法包括模型的假设空间（就是需要学习的模型属于某个函数的集合）、模型选择的准则以及模型学习的算法这三要素，即模型(model)、策略(strategy)和算法(algorithm)。那么具体的学习方法步骤就可以归纳为：

确定学习模型的集合，确定学习的策略，实现求解最优模型的算法，利用训练数据集做迭代训练，选择最优的模型，对新数据进行预测分析。

方法=模型+策略+算法

基本概念

输入空间(input space)：输入的所有可能取值。每个具体的输入是一个实例，通常表示为特征向量，所有特征向量构成特征空间(feature space)。输入空间到特征空间有个映射关系，而模型一般定义在特征空间上。

输入实例 x 的特征向量记作

x=(x(1),x(2),...,x(i),...,x(n))T

比如二维坐标中的点，表示为实例点 x1=(2,5)T, x2=(3,9)T，那么一般给的训练集通常表示为

T={(x1,y1),(x2,y2),...,(xn,yn)}

输出空间(output space)：输出的所有可能取值。有可能是离散的有限个。

联合概率分布：监督学习假设输入与输出的随机变量X和Y遵循联合概率分布函数P(X,Y)。但一般概率分布函数是未知的，如果已知的话就不用学习了。

假设空间：学习的范围，可能模型的集合。模型可以是概率模型或非概率模型，由条件概率分布P(Y|X)或决策函数Y=f(X)表示。

书中的描述监督学习学习和预测两个过程的那个图很清晰直观。在后面解决3个问题也是套用的这个过程。