统计学习方法概论(未完待续)

来源:互联网 发布:电视剧网络版权价格 编辑:程序博客网 时间:2024/06/05 21:48

1.1统计学习

统计学习:关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。包括监督学习、非监督学习、半监督学习及强化学习。

主要特点:

  • 以计算机及网络为平台
  • 以数据为研究对象
  • 目的是对数据进行预测和分析
  • 以方法为中心
  • 多学科交叉

1.2监督学习

  • 任务
    学习一个模型,使得模型对任意给定的输入,对其相应的输出做出一个好的预测。
  • 基本概念
    1、输入空间、输出空间与输出空间

    • 输入空间、输出空间: 将输入与输出所有可能取值的集合分别称为输入空间与输出空间
    • 特征空间:每个具体的输入是一个实例,通常由特征向量表示。所有的特征向量存在的空间称为特征空间。特征空间的每一维对应于一个特征。有时候假设输入空间与特征空间为相同的空间,有时候假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间,模型实际上都是定义在特征空间上。
    • 样本:输入与输出对
    • 回归:输入变量与输出变量均为连续变量的预测问题
    • 分类:输出变量为有限个离散变量的预测问题

    2、联合概率分布
    监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数,或分布密度函数。训练数据与测试数据被看做依联合概率分布P(X,Y)独立同分布产生的。统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。

    3、假设空间
    监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定

1.3统计学习三要素

统计学习方法 = 模型 + 策略 + 算法

1.3.1 模型

  • 在监督学习中,模型就是所要学习的条件概率分布或决策函数
    假设空间用F表示,假设空间可以定义为决策函数的集合

             F={f|Y=f(X)}

    假设空间也可定义为条件概率的集合

             F={P|P(y|x)

1.3.2 策略

  • 有了假设空间,统计学习需要考虑的按照什么样的准则学习或者选取最优的模型
    统计学习的目标在于从假设空间中选取最优模型

1.3.3算法

  • 算法是指学习模型的具体计算方法。统计学习基于训练数据,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型
0 0
原创粉丝点击