【机器学习】从统计学角度看待机器学习

来源：互联网发布：电磁场与微波技术知乎编辑：程序博客网时间：2024/05/22 03:41

统计学习总览

李航的《统计学习方法》绝对是干货十足的书，可惜实在是太干了，字字珠玑，几乎每段话都能当作笔记进行整理。读起来仿佛在吃加强版的压缩饼干，虽然能量十足但未免太难吃了。

根据文中内容，现在的机器学习，狭义上就是指代统计机器学习。

统计学习是数据驱动，从数据中学习概率统计模型，然后利用模型对新数据进行分析和预测。

统计学习关于数据的基本假设——同类数据具有一定的统计规律。以随机变量(组)描述数据特征，以概率分布描述数据的统计规律。

统计学习的目的是——寻找什么样的模型，怎么学习这个模型，以及学习这个模型的效率。从而对数据进行分析和预测。

统计学习基本步骤——数据假设、模型假设、策略选择、优化求解、选择模型、应用模型。

数据——独立同分布。

模型(参数空间、复杂度)——所有可能模型集合，假设空间(输入=>模型=>输出，一种映射，如条件概率或决策函数)。

策略(损失函数、风险函数、经验函数)——确定模型选择的准则(最大似然，最小二乘拟合)。

算法(优化问题)——实现策略的方法(直接求解，迭代求解，梯度下降)。

输入实例=>特征向量、输入输出对=>样本。

通过训练误差。测试误差来评估模型——欠拟合和过拟合，偏倚方差两难问题。

通过正则化和交叉验证来选取模型。

通过泛化误差上界来评定模型好坏。

====================================================================================

统计学习定义：关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。

机器学习：往往是指代统计机器学习。

统计学习对象：数据驱动，并假设同类数据具有一定的统计规律性。

统计学习目的：分析和预测数据。

统计学习目标：学习什么样的模型，如何学习模型，并有效率的学习。

统计学习的分类：监督学习、半监督学习、无监督学习、增强学习等。

统计学习数据表示：以变量或者变量组来表示。分为连续变量和离散变量。

统计学习的方法步骤(监督学习为例)：数据假设、模型假设、策略选择、优化求解、选择模型、应用模型

1.有限训练数据集合，并假设数据独立同分布——数据。

2.确定假设空间，即可能的模型集合——模型。

3.确定模型选择的准则——策略。

4.实现求解模型的方法——算法。

5.通过学习选择最优模型——选择。

6.利用模型进行预测和分析——应用。

统计学习的研究：包括统计学习方法、统计学习理论、统计学习应用。

1.统计学习方法的研究——开发新的学习方法。

2.统计学习理论的研究——学习方法的有效性和效率，以及基本理论问题。

3.统计学习应用的研究——如何将统计方法应用到实际问题中去。

统计学习的重要性：我们都懂得，混口饭吃嘛，装装牛X啥的。

====================================================================================