应用统计学-简单概念1

来源：互联网发布：linux magic number 编辑：程序博客网时间：2024/05/16 05:21

第1章统计学习方法概论

1.1 统计学习

统计学习也称之为统计机器学习。统计学习是基于数据构建模型，然后从模型中找出最好的模型，构建完模型后便可以对数据进行预测和分析。统计学习方法包括模型的假设空间，模型的选择原则，模型学习的算法。简称模型，策略和算法。

1.2 监督学习

输入空间和输出空间是指所有可能的输入和输出值的集合。特征空间是对一个输入空间实例的标示。一般情况下输入空间和特征空间是一样的。

输入变量和输出变量均是连续的那么就是回归问题；如果输出变量是有限的几个离散值，那么就是分类问题；如果输入和输出均为变量序列的预测问题，那么就是标注问题。

监督学习假设输入和输出的随机变量X与Y遵循联合概率分布P(X,Y)，这是对数据的基本假设，然后通过学习求得该联合概率分布。

模型是由输入空间到输出空间的映射的集合，假设空间就是这个集合。

监督学习分为概率模型和非概率模型。概率模型是根据条件概率分布P(Y|X)来判断，而非概率模型是通过决策函数Y=f(X)表示。

1.3 统计学习三要素

模型：模型就是要学习的条件概率或者决策函数。

策略：统计学习的目标便是从假设空间中选取最优模型。

损失函数：通过预测的值和真实值之间的差别成为损失，针对不同的损失，可以通过损失函数来表示。

损失的期望称为风险函数。但是计算风险函数需要知道的P(X,Y)，这个不现实，所以引入了平均损失的概念，也就是经验损失。根据大数定律，当样本足够大的时候，平均损失是趋近于期望损失。也就是经验风险趋近于期望风险。

但是当数据量很少的时候，就不能只考虑经验损失了。这时候提出了结构风险。为了防止过拟合现象，对于结构比较复杂的函数增加了正则化项（惩罚项）。

监督学习就变成了经验风险和结构风险最优化的问题。

1.4 模型评估与模型选择

训练误差与测试误差：训练误差对于判定一个给定的问题是不是一个容易学习的问题是有意义的，但是本质上不重要；测试误差反映了学习方法对未知的测试数据集的预测能力，是学习中的重要概念。

通常将学习方法对未知数据的预测能力称之为泛化能力。

如果一味的提高对训练数据的预测能力，所选模型的复杂度则往往会比真模型要高。

模型复杂度越高，训练误差会降低；但是测试误差会先降低再升高。

1.5 正则化与交叉验证

正则化：模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现。即在经验风险后面加上一个正则化项（惩罚项）。正则化的作用是选择经验风险和模型复杂度同时较小的模型。

奥卡姆剃刀原理：能够很好的解释已知数据并且十分简单才是最好的模型。

另一种常用的模型选择方法是交叉验证。就是用数据去验证模型的好坏。

简单交叉验证：把已知数据分为两份。一部分用于训练，另一部分用来测试，选择测试效过最好的。

S折交叉验证：把已知数据分为S份，其中S-1份用于训练，另一份用于测试。这样替换着进行S次，然后求平均测试误差最小的模型。

留一交叉验证：S折交叉验证的特例，即S=N（N是数据集的大小）

1.6 泛化能力

泛化能力指的是模型对未知数据的预测能力。泛化误差就是期望风险。

学习方法的泛化能力往往是通过研究泛化误差的概率上界进行的。泛化误差上界的有一个不等式。可以用于计算。P16页

1.7 生成模型与判别模型

监督学习方法可以分为生成方法和判别方法，对应的模型是生成式模型和判别式模型。

生成方法，是先通过训练数据获取联合分布P(X,Y)，然后由联合分布获取P(Y|X)作为预测的模型。

P(Y|X) = P(X,Y)/ P(X)

之所以称之为生成方法，是因为给定输入X产生输出Y的生成关系。典型的方法有朴素贝叶斯和隐形马儿可夫模型。

判别方法是有数据直接学习决策函数和条件概率分布P(Y|X).

1.8 分类问题

准确率：分类正确的数目占总数目的多少。

1.9 标注问题

标注问题的输入编程了一个序列，输出也是一个序列。输出序列每一项是对输入序列每一项的一个标记。

标注常用的统计学习方法：隐形马儿可夫模型，条件随机场

1.10 回归问题

回归问题的学习等价于函数拟合。回归问题按照输入变量的个数分为一元回归和多远回归；按照输入和输出之间关系的类型可以分为线性回归和非线性回归。

第2 章感知机

感知机是神经网络和支持向量机的基础。感知机其实就是找一个分离超平面。根据统计学习方法的三要素：

模型：判别式模型。属于线性分类器。通过学习模型f(x) = sign(w*x + b)来判断符号。

策略：使得损失函数最小化。此处的损失函数采用的是误分类点到分离超平面的距离之和。使得损失函数最小的便是所需要的。

第3章 K近邻法

K近邻法是一种分类方法。信息检索中也有涉及，可以查看一下。从统计学习方法的角度讲。K近邻法的模型就是在特征空间中，找出实例周围的K个训练实例，一般通过多数表决的方式获取到类别信息。距离度量，往往采用欧氏距离的方式，也有其他距离度量方式。决策规则其实就是找出经验损失最小的模型。

如果每次输入一个实例，都要计算与空间中所有训练实例的距离，那么就非常的低效率。所以，通过合理的数据结构存储这些训练实例点就是关键，文中提出了KD树，把空间中的所有实例点分到不同的分支中，计算的时候只要计算树的一个分支就可以。这个便解决了要与所有的节点计算距离的方式。

第4章朴素贝叶斯法

朴素贝叶斯方法是贝叶斯理论与条件独立性假设一起构造的分类方法。

朴素贝叶斯采取后验概率最大化准则其实就是期望风险最小化。（极大似然其实是经验风险最小化的一个特例）

朴素贝叶斯方法的步骤：

1、计算先验概率。（即计算某一分类的概率）

2、计算条件概率。（即在某一个分类下面某条件的概率）

3、计算某个给定实例的概率大小。

加1平滑为了解决概率为0的问题。（信息检索出也有）

第5章决策树

决策树是一种分类和回归模型，书中主要讲到的是分类。决策树是根据损失函数最小化的原则建立的。决策树的学习分为三个步骤：特征选择，决策树生成和决策树剪枝。

决策树学习其实就是学习一些分类规则。如果该分类规则非常适用于训练数据，那么损失函数就会很小，但是这样也容易造成过拟合现象。所以，决策树的学习是一个以损失函数最小为目标的学习过程。但是不可能把所有可能的决策树都列举出来计算损失函数。所以采用启发式方法，即每一次都进行特征选择，这样得到的决策树是次优的。另外，这样得到的记过可能有过拟合的嫌疑，所以进行簇剪枝可以有效的缓解过拟合现象。

熵H(X)是随机变量不确定性的度量。熵只依赖于X的分布，不依赖于X的取值。条件熵H(Y|X)是指在已知随机变量X的条件下，随机变量Y的不确定性。熵和条件熵的概率由数据估计得到时，也可以称之为经验熵和经验条件熵。

信息增益就是指得知X，而使得Y的不确定性信息减少的程度。

特征A对训练数据D的信息增益g(D,A)，可以定义为集合D的经验熵H(D)与特征A给定条件下D的经验熵H(D|A)之差。

信息增益的大小是相对于训练数据集而言的，并没有绝对的意义。当分类困难时，经验熵就比较大，那么信息增益就比较大；反之，信息增益比较小。所以使用信息增益比更加贴切一些。信息增益比就是信息增益/经验熵。

决策树算法有三种：ID3(采用信息增益) C4.5(采用信息增益比) CART算法

第6章 logistic回归与最大熵模型

Logistic回归就是根据logistic函数的特殊性，然后能把非线性转化为线性问题。

最大熵原理可以表述为在满足约束条件的模型集合中选取熵最大的模型。

0 0