学习记录-统计学习简介之统计学习方法概述

来源:互联网 发布:js写计算器 编辑:程序博客网 时间:2024/06/16 07:57

统计(机器)学习方法概述

   机器学习 = 

       神经科学与认知科学+
       数学+
       计算

   学习系统的一般模型

      
         输入变量、输出变量、隐藏变量

    机器学习

               根据给定的训练样本求对某系统输入输出之间依赖关系的估计,使它能够对未知输出作出尽可能准确的预测。
                

    机器学习问题的表示:

             (1)根据n个独立同分布观测样本数据确定预测函数 f (x,w).
             (2)在一组函数{ f (x,w)}中求一个最优的函数 f(x,w0)对依赖关系进行估计,使预测的期望风险最小。

    学习问题的一般表示:

         
        

     ERM准则与统计学习理论的发展

       经验风险最小并不意味着期望风险最小

       需要建立在小样本情况下有效的学习方法
              (1)小样本条件下的统计学习理论
              (2)支持向量机(SVM)
      

     Why Learning is difficult?

         给出有限数量的训练数据,要得到在无限范围上的关系。
         Given a finite amount of training data , you have to derive a relation for an infinite domain.
          In fact , there is an infinite number of such relation.

       Learing as a Search Problem.

           

     三类基本的机器学习问题

       模式分类问题

                输出y是类别标号,两类情况下 y = {1 , -1},预测函数称作指示函数(Indicator Function),损失函数定义如下,使期望风险最小就是
          Bayes决策中使错误率最小。
                  
                

      回归问题

                 输出 y是连续变量,它是x的函数,损失函数定义如下:
                   
                 

    概率密度估计问题

         根据训练样本确定 x 的概率分布 p(x,w),则损失函数可定义为:

                     
          

  统计学习的基本方法

      有监督学习(Supervised):分类、回归 

             (1)标定的训练数据
             (2)训练数据:根据目标输出与实际输出的误差信号来调节参数
             (3)典型方法
                      全局:BN,NN,SVM,Decision Tree
                      局部:KNN,CBR(Case-base reasoning)

      无监督学习(Unsupervised):概率密度估计、聚类、降维

             (1)不存在标定的训练数据
             (2)学习机根据外部数据的统计规律来调节系统参数,以使输出能反映数据的某种特性
             (3)典型方法:
                     K-means、SOM.....
                     聚类

     监督学习的有无的区别:

            训练数据是否经过人工标注。

      半监督学习(Semi-supervised):EM、Co-training

              (1)结合(少量的)标定训练数据和(大量的)未标定数据来进行学习
              (2)典型方法:
                       Co-training、EM、Latent variables

      其他学习方法

          增强学习(Reinforcement Learning)

               (1)外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励的动作来改善自身的性能。
               (2)训练数据包含部分学习目标信息
               (3)例子:训练小动物
                          

         多任务学习(Multi-task learning)

                Learns a problem together with other related problems at the same time,using a shared representation.

     学习模型

       单学习模型

  Linear models
 Kernel methods
 Neural networks
         Probabilistic models
 Decision trees
 ......

      模型组合

         (1)组合多个“弱”学习模型来达到更优的性能  1+1>1?

         (2)Boosting

                    结合低性能学习模型来产生一个强大的分类器组
                    Boosting是个非常强大的学习方法,它组合许多“弱”分类器来产生一个强大的分类器组。
1.弱分类器:性能只比随机选择好一点,设计简单且计算花费低
2.最常用的弱分类器是决策树
            常见的Boosting:
1.离散AdaBoost,实数AdaBoost,LogitBoost和Gentle Adaboost
2.它们有非常类似的总体结构

         (3)Bagging:

                    结合多个不稳定学习模型来产生稳定预测
(1)训练数据的微小变化可能使得预测模型产生大的变化
 不稳定模型:Neural  Nets,trees
 稳定模型:SVM,KNN

         (4)主动学习(Active Learning)

                    主动选择训练样本
产生式模型VS判别式模型
        
0 0
原创粉丝点击