统计机器学习(1)-统计学习方法概论
来源:互联网 发布:自己设计房子软件 编辑:程序博客网 时间:2024/06/11 10:53
笔记来源于《统计学习方法》——李航著
统计机器学习(1)-统计学习方法概论
1.1统计学习
统计学习的对象是data,从数据出发,提取数据的特征,抽象出数学模型,发现数据中的知识,又回到对数据的分析和预测中去。
统计学习由监督学习,非监督学习,半监督学习和强化学习等组成。
监督学习:从给定的,有限的,用于学习的训练数据(training data)集合出发,假设数据独立同分布;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space),应用于某个评价准则(evaluation criterion),从假设空间中选择一个最优的模型使得它対已知训练数据以及未知测试数据在给定的评价标准下有最优的预测;最优模型的选取由算法实现,这样,统计学习包括模型的假设空间,模型选择的准则以及模型学习的算法,称为统计学习的三要素
1. 得到一个有限的训练数据的集合
2. 确定包含所有可能的模型的假设空间
3. 确定模型选择的准则(strategy)
4. 实现求解最优模型的算法(algorithm)
5. 通过学习方法选择最优模型
6. 利用学习的最优模型对新数据预测或分析
1.2监督学习
Input Space:输入的所有可能值得集合
Output Space:输出地所有可能值得集合
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。
输入实例x的特征向量
输入
if 输入变量和输出变量均连续——>回归问题
if 输出变量为有限个离散变量的预测问题——–>分类问题
if 输入变量和输出变量均为变量序列的预测问题——–>标注问题
监督学习假设输入与输出的随机变量
在学习过程中,假设这一联合概率分布存在,但对学习系统来讲,联合概率分布的具体定义是未知的。
监督学习的目的在于学习一个由输入到输出地映射,这一映射由模型来表示,监督学习的模型可以使概率模型或者是非概率模型,由条件概率分布
条件概率分布
1.3统计学习的三要素
模型
通常是一个由参数向量来决定的函数族。
参数向量
另外一种定义方式是:
策略
损失函数(loss function):度量模型一次预测的好坏
风险函数(risk function):度量平均意义下模型预测的好坏
0-1 loss function
(Y,f(X))={10Y≠f(X)Y=f(X)
quadratic loss function
(Y,f(X))=(Y−f(X))2
absolute loss function
(Y,f(X))=|Y−f(x)|
logarithmic loss function
(Y,f(X))=−logP(Y|X)
对于loss function的期望(expectation)
这是理论上模型
学习的目标就是选择风险函数最小的模型。由于联合分布
给定一个训练集
模型
期望风险
经验风险最小化和结构风险最小化
经验风险最小化(empirical risk minimization,ERM)的策略认为,经验风险最小的模型是最优的模型。根据这一策略,按照经验风险最小化求解模型就是求解最优化问题:
其中
极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
但是,当样本容量很小时,经验风险最小化学习的效果未必很好,会产生过拟合现象。
结构风险最小化(structural risk minimization ,SRM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。在假设空间,损失函数以及训练数据集确定的情况下,结构风险的定义是:
其中
贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation ,MAP)就是结构风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验估计。
同样的,等价于求解最优化问题:
minf∈1N(yi,f(xi))+λJ(f)
算法
由于统计学习问题归结为最优化问题,统计学习的算法称为求解最优化问题的算法。一般而言是用数值的方法求解出全局最优解。
1.4模型评估与模型选择
train error
test error
over-fitting and the select of the model
over-fitting :select the model so complex that the train data can not give enough message to get the model(
example:
if
we can know we can not solve the
if
the curve may over-fitting
1.5正则化和交叉验证
正则化:正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项,正则化项一般都是模型复杂度的单调递增函数;模型越复杂,正则化值就越大。
minf∈i=1N(yi,f(xi))+λJ(f) 其中第二项就是正则化项
交叉验证是在样本数目不够的事后,可以将给定的数据切分,将切分的数据组合为训练集和测试集,在此基础上反复训练,测试以及模型选择。
1.6泛化能力
泛化误差(generalization error):
泛化误差的上界和经验风险有关
对于任意的
其中
proof:
reference: Hoeffding Inequality:ifSn=∑ni=1Xi ,whereXi is the independent random variable;then for anyt≥0 :
P(Sn−ESn≥t)≤exp(−2t2∑ni=1(bi−ai))
P(ESn−Sn≥t)≤exp(−2t2∑ni=1(bi−ai))
for anyf∈ ,Remp(f) is the average of N random variable(Y,f(X)) ,Rexp(f) is the expectation of random variable(Y,f(X))
if the value of loss function is in[0,1] ,means for anyi,[ai,bi]=[0,1] ,use the Hoeffding Inequality we can get forϵ≥0 :
P(Rexp(f)−Remp(f)≥ϵ)≤exp(−2Nϵ2)
notice that={f1,f2,⋯,fd} is finite set,so:
P(∃f∈:Rexp(f)−Remp(f)≥ϵ)=P(⋃f∈{Rexp(f)−Remp(f)≥ϵ})≤∑f∈P(Rexp(f)−Remp(f)≥ϵ)≤dexp(−2Nϵ2)
or for anyf∈ :
P(Rexp(f)−Remp(f)<ϵ)≥1−dexp(−2Nϵ2)
set
δ=dexp(−2Nϵ2)
so:
P(Rexp(f)<Remp(f)+ϵ)≥1−δ
QED
- 统计机器学习(1)-统计学习方法概论
- 机器学习-统计学习方法概论
- 机器学习-统计学习方法概论
- 1机器学习基础—2统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习方法概论---(1)
- 统计学习方法学习笔记1:统计学习方法概论
- 《统计学习方法》学习笔记(一):统计学习方法概论
- 1 - 统计学习方法概论
- <统计学习方法>1 概论
- 机器学习系列笔记1:《统计学习》李航博士 第一章 统计学习方法概论
- 统计学习方法笔记(1)——统计学习方法概论
- 统计学习方法笔记1--统计学习方法概论
- Struts2返回JSON数据的具体应用范例
- jquery 多个radio的click事件
- [ATL/WTL]_[初级]_[环境搭建]
- jQuery中Ajax事件beforesend及各参数含义
- leetcode Search in Rotated Sorted Array
- 统计机器学习(1)-统计学习方法概论
- jQuery 正则表达式
- lightOJ 1236 Pairs Forming LCM
- 九度1010 A+B(字符串处理)
- jQuery 增加 删除 修改select option
- day 026 QQ
- 将多个js函数绑定到onload事件上
- 最大团
- js 动作与函数绑定