统计学习理论

来源:互联网 发布:淘宝商城品牌故事范文 编辑:程序博客网 时间:2024/05/22 04:48
  1. 统计学习的特点

     统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并用模型对数据进行预测与分析的学科。特点:(1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的;          (2)统计学习以数据为研究对象,是数据驱动的学科;          (3)统计学习的目的是对数据进行预测与分析;          (4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;          (5)统计学习是概率论、统计学、信息轮、计算理论、最优化理论及计算机科学等多个领域的交叉学科。统计学习就是计算机系统通过运用数据及统计方法体改系统性能的机器学习。     
  2. 统计学习对象

    统计学习的对象是数据(data),它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。
    统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这事统计学习的前提。同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等。由于他们具有统计规律性,所以可以用概率统计方法来加以处理。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。
    在统计学习过程中,以变量或变量组表示数据。数据氛围又连续变量和离散变量表示的类型。

  3. 统计学习的目的

    统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析,对数据的预测可以是计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可以让人们获取新的知识,给人们带来新的发现。
    对数据的预测与分析是通过构建概率模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

  4. 统计学习的方法

    统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。
    对于监督学习:从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学的模型属于某个函数的集合,成为假设空间(hypothesis space);应用某个评价标准(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。
    统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)。
    实现统计学习方法的步骤如下:
    (1)得到一个有限的训练数据集合;
    (2)确定包含所有可能的模型的假设空间,即学习模型的集合;
    (3)确定模型选择的准则,即学习的策略;
    (4)实现求解最优模型的算法,即学习的算法;
    (5)通过学习方法选择最优模型;
    (6)利用学习的最优模型对新数据进行预测或分析。

0 0
原创粉丝点击