学习记录-统计学习简介之统计学习方法概述

来源：互联网发布：js写计算器编辑：程序博客网时间：2024/06/16 07:57

统计(机器)学习方法概述

机器学习 =

神经科学与认知科学+

数学+

计算

学习系统的一般模型

输入变量、输出变量、隐藏变量

机器学习

根据给定的训练样本求对某系统输入输出之间依赖关系的估计，使它能够对未知输出作出尽可能准确的预测。

机器学习问题的表示：

（1）根据n个独立同分布观测样本数据确定预测函数 f (x,w).

（2）在一组函数{ f (x,w)}中求一个最优的函数 f(x,w0)对依赖关系进行估计，使预测的期望风险最小。

学习问题的一般表示：

ERM准则与统计学习理论的发展

经验风险最小并不意味着期望风险最小

需要建立在小样本情况下有效的学习方法

（1）小样本条件下的统计学习理论

（2）支持向量机（SVM）

Why Learning is difficult?

给出有限数量的训练数据，要得到在无限范围上的关系。

Given a finite amount of training data , you have to derive a relation for an infinite domain.

In fact , there is an infinite number of such relation.

Learing as a Search Problem.

三类基本的机器学习问题

模式分类问题

输出y是类别标号，两类情况下 y = {1 , -1},预测函数称作指示函数（Indicator Function），损失函数定义如下，使期望风险最小就是

Bayes决策中使错误率最小。

回归问题

输出 y是连续变量，它是x的函数，损失函数定义如下：

概率密度估计问题

根据训练样本确定 x 的概率分布 p(x,w)，则损失函数可定义为：

统计学习的基本方法

有监督学习（Supervised）：分类、回归

（1）标定的训练数据

（2）训练数据：根据目标输出与实际输出的误差信号来调节参数

（3）典型方法

全局：BN，NN，SVM，Decision Tree

局部：KNN，CBR（Case-base reasoning）

无监督学习（Unsupervised）：概率密度估计、聚类、降维

（1）不存在标定的训练数据

（2）学习机根据外部数据的统计规律来调节系统参数，以使输出能反映数据的某种特性

（3）典型方法：

K-means、SOM.....

聚类

监督学习的有无的区别：

训练数据是否经过人工标注。

半监督学习(Semi-supervised)：EM、Co-training

（1）结合（少量的）标定训练数据和（大量的）未标定数据来进行学习

（2）典型方法：

Co-training、EM、Latent variables

其他学习方法

增强学习(Reinforcement Learning)

（1）外部环境对输出只给出评价信息而非正确答案，学习机通过强化受奖励的动作来改善自身的性能。

（2）训练数据包含部分学习目标信息

（3）例子：训练小动物

多任务学习(Multi-task learning)

Learns a problem together with other related problems at the same time,using a shared representation.

学习模型

单学习模型

Linear models
Kernel methods
Neural networks
Probabilistic models
Decision trees
......

模型组合

（1）组合多个“弱”学习模型来达到更优的性能 1+1>1?

（2）Boosting

结合低性能学习模型来产生一个强大的分类器组

Boosting是个非常强大的学习方法，它组合许多“弱”分类器来产生一个强大的分类器组。

1.弱分类器：性能只比随机选择好一点，设计简单且计算花费低

2.最常用的弱分类器是决策树

常见的Boosting：

1.离散AdaBoost，实数AdaBoost，LogitBoost和Gentle Adaboost

2.它们有非常类似的总体结构

（3）Bagging：

结合多个不稳定学习模型来产生稳定预测

（1）训练数据的微小变化可能使得预测模型产生大的变化

不稳定模型：Neural Nets,trees

稳定模型：SVM,KNN

（4）主动学习（Active Learning）

主动选择训练样本

产生式模型VS判别式模型

0 0