统计学习方法概论

来源:互联网 发布:php 7 加密 编辑:程序博客网 时间:2024/05/23 01:16

1.1 统计学习

1. 统计学习的特点

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并利用模型进行分析与预测的一门学科。统计学习也称为统计机器学习(statistical machine learning)。

统计学习的主要特点是:
1. 统计学习以计算机和网络为平台。
2. 统计学习以数据为研究对象,是数据驱动的学科。
3. 统计学习的目的是对数据进行预测和分析。
4. 统计学习以方法为中心,统计学习方法构建模型并利用模型进行预测和分析。
5. 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科。

Herbert Simon 曾对“学习”给出以下定义:如果一个系统能够通过执行某个过程改进它的性能,这就是学习。按照这一观点,统计学习就是计算机系统运用数据及统计方法提高系统性能的机器学习。

2. 统计学习的对象

统计学习的对象是数据。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。
统计学习关于数据的基本假设是同类数据具有一定的统计规律,这是统计学习的前提。

3. 统计学习的目的

统计学习用于对数据进行预测与分析,特别是对未知数据的预测和分析。对数据的预测与分析是通过概率统计模型来实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能够对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

4. 统计学习的方法

统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。
统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其统计学习方法三要素,简称为模型、策略和算法。

实现统计学习方法的步骤如下:

  1. 得到一个有限的训练数据集合;
  2. 确定包括所有可能模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测和分析。
0 0
原创粉丝点击