(笔记)初步了解监督学习

来源:互联网 发布:asp.net入门编程实例 编辑:程序博客网 时间:2024/05/18 03:17

今天开始初步的涉猎统计学习方法,以该系列博客作为自己学习的成果吧

简介

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的学科。由这段话我们可以看出,统计学习建立在数据的基础上,我们获取数据,对数据进行一定的探究,提取数据的特征,抽象出数据的模型,来发现数据之间的关系,从而能够对我们想要探究的问题进行预测。
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,也只有如此我们才能够对其运用概率统计方法进行分析利用。

统计学习的方法

我们主要对监督学习(supervised learning) 进行探究。对于监督学习,简单的说,就是给定一定的用于学习的数据,即训练数据(training data)。在此,我们假设数据是独立同分布的,且需要学习的模型属于某个函数的集合,称该集合为假设空间(hypothesis space)。在一个的评价准则(evaluation criterion)下,对于已知的训练数据和未知的测试数据(test data),可以从假设空间中选取一个合适的模型,使得数据能够拥有一个最优的预测。
因此,对于监督学习,我们需要做的工作如同把大象塞进冰箱里一样简单。

  • 找到模型的假设空间
  • 模型选择的准则
  • 模型学习的算法

以上三点归纳为模型(model)策略(strategy)算法(algorithm)

监督学习基本概念

监督学习的任务是学习一个模型,使得模型对于任意输入的数据都能有一个相对较好的预测,即输出。

输入空间,特征空间和输出空间

输入空间(input space)输出空间(output space)顾名思义,非常好理解。就是输入与输出的所有可能取值的集合。输入输出空间可以是有限元素的集合,也可以是整个欧氏空间。可以在同一空间内也可以发在不同的空间。通常情况下,输入空间远大于输出空间。
对于每一个具体的输入,我们称其为实例(instance),通常由特征向量(feature vector)来表示,自然而然,所有的特征向量存在的空间我们称为特征空间(feature space)
这里很容易和输入空间弄混,个人的理解是,特征空间是一个更为抽象的概念, 对于一个模型而言,它接受的输出存在着一定的特征,这些特征所存在的空间,我们称为特征空间,而输入空间是这些特征的具体化,实例化。
在监督学习的过程中,将输入和输出看作是输入(特征)空间上与输出空间上随机变量的取值。习惯上将输入空间即为X,将输出空间记为Y。而变量的具体取值分别用小写字母xy表示。输入的实例我们记为

x=(x(1),x(2),x(3),,x(n))T

这里的x(i)表示第i个特征,而xii$个输入变量。
对于监督学习,我们从训练数据集合中学习模型,训练数据由输入与输出对组成,通常表示为:

T={(x1,y1),(x2,y2),,(xN,yN)}

测试数据也用同样的方法来表示。我们又时也将输入输出对称为样本样本点
针对于输入X与输出Y的不同类型,我们给予不同的任务不同的名称

  • 回归问题:输入和输出变量均为连续变量的预测问题
  • 分类问题:输出变量为有限个离散变量的预测问题
  • 标注问题:输入和输出变量均为变量序列的预测问题

联合概率分布

监督学习假设输入变量和输出变量遵循联合概率分布P(X,Y),但是对于学习系统而言,这个概率分布的定义是未知的,我们认为训练数据和测试数据都是依照联合概率分布独立同分布产生的。

假设空间

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。简单的表述就是,我们去寻找这样一个好的模型,这个模型由输入空间到输出空间的映射组成,使得对于每个输入都有一个好的输出产生,这样的一个映射的集合我们称为假设空间(hypothesis space)

问题形式化

监督学习分为学习和预测两个过程。
首先需要给定一个训练数据集

T={(x1,y1),(x2,y2),,(xN,yN)}

其中xiXRn 是输入的观测值,Rn 为n维欧式空间。
在学习过程中,学习系统利用给定的数据集(xi,yi),通过学习或训练得到一个模型,表示为条件概率分布Pˆ(Y|X)决策函数Y=fˆ(X),该模型描述了输入空间与输出空间随机变量之间相对应的映射关系。
在预测过程中,对于给定的测试样本集的输入Xn+1,预测系统能够由模型得到yn+1=argmaxyn+1Pˆ(Yn+1|Xn+1)yn+1=fˆ(xN+1)
对于任意一个已知的样本点,一个输入xi,可以通过预测系统得到f(xi),而样本点所对应的输出为yi,如果一个模型拥有足够好的预测能力,那么,模型输出f(xi)yi的误差便应该足够的小。
学习系统正是通过不断的学习和训练,来获得一个能够相对完美解释输入与输出随机变量。

原创粉丝点击