决策树、SVM及集成方法

来源:互联网 发布:js获取父级节点 编辑:程序博客网 时间:2024/06/05 21:52

- 选择的算法:决策树、集成方法、支撑向量机

  • 决策树

    • 模型在真实世界中也应用场景

      • 在金融方面使用决策树建模分析,用于评估用户的信用、贷款违约率等;在电子商务中,可以根据用户的以往的交易种类、时间、价格建立商品推荐体统等。

      • 引用连接:
        信贷方面的应用
        电商推荐系统

    • 这个模型的优势是什么?

      • 决策树易于实现和理解;
      • 对于决策树,数据的准备工作一般比较简单;
      • 能够同时处理多种数据类型
      • 给定一个决策树模型,可以根据产生的决策树推出相应的逻辑表达式;
      • 通过静态测试来对模型的表现进行评价;
      • 在相对较短的时间内可以对大量的数据做出非常好的结果;
      • 决策树可以很好地扩展到大型数据中,同时决策树的大小独立于数据库的大小;
      • 计算复杂度相对较低,结果的输出易于理解,对部分的数据缺失不敏感。
    • 他什么情况下表现最好?

      • 实例是由“属性-值”对表示的;
      • 目标函数具有离散的输出值;
      • 训练数据集包含部分错误(决策树对错误有适应性);
      • 训练数据缺少少量属性的实例。
    • 这个模型的缺点是什么?

      • 易于出现过拟合问题;
      • 忽略了数据集中属性之间的相关性;
      • 对于类比不一致的样本,决策树的信息增益倾向于那些数据值较多的特征
    • 什么条件下它表现很差?

      • 决策树匹配的数据过多时;
      • 分类的类别过于复杂;
      • 数据的属性之间具有非常强的关联。
    • 根据我们当前数据集的特点,为什么这个模型适合这个问题。

      • 不需要准备太多的训练数据,不需要对数据过多的处理如删除空白值等;
      • 易于编码;
      • 该问题是非线性问题,决策树能够很好地解决非线性问题;
      • 算法的执行效率高,对机器的要求较小。

  • 支撑向量机

    • 模型在真实世界中也应用场景
      • 支撑向量机用于文本和超文本的分类;
      • 用于图像分类;
      • 用于手写体识别;
      • Kecman, Vojislav; Learning and Soft Computing — Support Vector Machines, Neural Networks, Fuzzy Logic Systems, The MIT Press, Cambridge, MA, 2001.
      • Barghout, Lauren. “Spatial-Taxon Information Granules as Used in Iterative Fuzzy-Decision-Making for Image Segmentation.” Granular Computing and Decision-Making. Springer International Publishing, 2015. 285-318.
    • 这个模型的优势是什么?

      • 分类效果好;
      • 可以有效地处理高维空间的数据;
      • 可以有效地处理变量个数大于样本个数的数据;
      • 只是使用了一部分子集来进行训练模型,所以SVM模型不需要太大的内存;
      • 可以提高泛化能力;
      • 无局部极小值问题;
    • 他什么情况下表现最好?

      • 数据的维度较高;
      • 需要模型具有非常强的泛化能力;
      • 样本数据量较小时;
      • 解决非线性问题;
    • 这个模型的缺点是什么?

      • 无法处理大规模的数据集,因为该算法需要较长的训练时间;
      • 无法有效地处理包含噪声太多的数据集;
      • SVM模型没有直接给出概率的估计值,而是利用交叉验证的方式估计,这种方式耗时较长;
      • 对缺失数据非常敏感;
      • 对于非线性问题,有时很难找到一个合适的核函数。
    • 什么条件下它表现很差?

      • 数据集的数据量过大;
      • 数据集中的含有噪声;
      • 数据集中的缺失较多的数据;
      • 对算法的训练效率要求较高;
    • 根据我们当前数据集的特点,为什么这个模型适合这个问题。
      • 该项目所提供的样本数据相对较少;
      • 该问题是属于非线性问题;
      • 数据集经过“独热编码”后,维度较高;

- SVM可以指定不同的核函数,用于提高分类器的准确性。

  • 集成方法(AdaBoost)
    • 模型在真实世界中也应用场景
      • 用于二分类或多分类问题;
      • 用于特征选择;
      • 多标签问题;
      • 回归问题;
        引用
    • 这个模型的优势是什么?
      • AdaBoost是一种精度非常高的分类器;
      • 可以与各种方法构建子分类器,AdaBoost算法提供一种计算框架;
      • 弱分类器的构造方法比较简单;
      • 算法易于理解,不用做特征筛选;
      • 不易发生过拟合。
      • 易于编码;
    • 他什么情况下表现最好?
      • 用于解决二分类问题;
      • 解决大类单标签问题;
      • 处理多类单标签问题;
      • 处理回归相关的问题。
    • 这个模型的缺点是什么?
      • AdaBoost算法的迭代次数不好设定,需要使用交叉验证的方式来进行确定;
      • 数据集的不平衡分布导致分类器的分类精度下降;
      • 训练比较耗费时间;
      • 对异常值比较敏感;
    • 什么条件下它表现很差?
      • 数据集分布非常不均匀;
      • 数据集中含有较多的异常值;
      • 对算法的训练的效率要求较高;
    • 根据我们当前数据集的特点,为什么这个模型适合这个问题。
      • 该数据集可以归属为多标签分类问题;
      • 数据集中异常值较少;
      • 对算法模型的准确率要就较高;
    • 介绍几种比较重要的将多个分类器整合为一个分类器的方法--boostrapping方法、bagging方法和Boosting算法。

      1)Bootstrapping:

      i)重复地从一个样本集合D中采样n个样本,新样本中可能存在重复的值或者丢失原样本集合的一些值。

      ii)针对每次采样的子样本集,进行统计学习,获得假设Hi

      iii)将若干个假设进行组合,形成最终的假设Hfinal

      iv)将最终的假设用于具体的分类任务

      2)Bagging方法

      i)训练分类器-从整体样本集合中,抽样n* < N个样本, 针对抽样的集合训练分类器Ci,抽取方法有很多种

      ii)分类器进行投票,最终的结果是分类器投票的优胜结果,每个分类器权重是相等的

      3)Boosting

      Boosting是一种与Bagging很类似的技术,两者所使用的多个分类器的类型都是一致的。但是在前者当中,不同的分类器是通过串行训练而获得的,每个新分类器都在已训练出的分类器的性能基础上再进行训练,通过集中关注被已有分类器错分的些数据来获得新的分类器。Boosting分类的结果是基于所有分类器的加权求和结果的,分类器权重并不相等,每个权重代表的是其对应分类器在上一轮迭代中的成功度。Boosting算法有很多种,AdaBoost(Adaptive Boost)就是其中最流行的,与SVM分类并称机器学习中最强大的学习算法。

      AdaBoost 是一种迭代算法,其核心思想是针对同一个训练集训练M个弱分类器,每个弱分类器赋予不同的权重,然后把这些弱分类器集合起来而构造一个更强的最终分类器,本文就详解AdaBoost算法的详细过程。

      第二节,AdaBoost算法

      (一)认识AdaBoost

      AdaBoost算法有AdaBoost.M1和AdaBoost.M2两种算法,AdaBoost.M1是我们通常所说的Discrete AdaBoost,而AdaBoost.M2是M1的泛化形式。关于AdaBoost算法的一个结论是:当弱分类器算法使用简单的分类方法时,boosting的效果明显地统一地比bagging要好.当弱分类器算法使用C4.5时,boosting比bagging较好,但是没有前者明显。后来又有学者提出了解决多标签问题的AdaBoost.MH和AdaBoost.MR算法,其中AdaBoost.MH算法的一种形式又被称为Real Boost算法---弱分类器输出一个可能度,该值的范围是整个R, 和与之相应的权值调整,强分类器生成的AdaBoost算法。

      事实上:Discrete AdaBoost是指,弱分类器的输出值限定在{-1,+1},每个弱分类器有相应的权值,从而构成一个强分类器。本文就详解该二分类的AdaBoost算法,其他请参考‘Adaboost原理、算法以及应用’。

      假设是二值分类问题,X表示样本空间,Y={-1,+1}表示样本分类。令S={(Xi,yi)|i=1,2,…,m}为样本训练集,其中Xi∈X,yi∈Y。再次重申,我们假设统计样本的分布式是均匀分布的,如此在两分类分类中(类别-1或者1)可以将阈值设为0。实际训练数据中,样本往往是不均衡的,需要算法来选择最优阈值(如ROC曲线)。AdaBoost算法就是学习出一个分类器YM(x) --由M个弱分类器构成。在进行分类的时候,将新的数据点x代入,如果YM(x)小于0则将x的类别赋为-1,如果YM(x)大于0则将x的类别赋为1。均匀分布中阈值就是0,非均衡分布则还要根据ROC曲线等方法确定一个分类的最优阈值。

       


      基本过程:针对不同的训练集训练一个个基本分类器(弱分类器),然后集成而构成一个更强的最终的分类器(强分类器)。不同的训练集是通过调整训练数据中每个样本对应的权重实现的。每次训练后根据此次训练集中的每个样本是否被分类正确以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据送给下层分类器进行训练,然后将每次训练得到的分类器融合起来,作为最后的决策分类器。

      每个弱分类器可以是机器学习算法中的任何一个,如logistic回归,SVM,决策树等。

      Adaboost有很多优点:

      1)adaboost是一种有很高精度的分类器

      2)可以使用各种方法构建子分类器,adaboost算法提供的是框架

      3)当使用简单分类器时,计算出的结果是可以理解的,而且弱分类器构造极其简单

      4)简单,不用做特征筛选

      5)不用担心overfitting

      (二)AdaBoost算法过程

      完整的adaboost算法如下(训练样本样本总数是N个,M是迭代停止后(积累错误率为0或者达到最大迭代次数)得到弱分类器数目)。

      给定一个训练数据集T={(x1,y1), (x2,y2)…(xN,yN)},其中实例,而实例空间,yi属于标记集合{-1,+1},Adaboost的目的就是从训练数据中学习一系列弱分类器或基本分类器,然后将这些弱分类器组合成一个强分类器,流程如下:

      最开始的时候,每个样本对应的权重是相同的(1/m),在此样本分布下训练出一个基本分类器h1(x)。对于h1(x)错分的样本,则增加其对应样本的权重;而对于正确分类的样本,则降低其权重。这样可以使得错分的样本突出出来,并得到一个新的样本分布。同时,根据错分的情况赋予h1(x)一个权重,表示该基本分类器的重要程度,错分得越少权重越大。在新的样本分布下,再次对基本分类器进行训练,得到基本分类器h2(x)及其权重。依次类推,经过M次这样的循环,就得到了M个基本分类器及对应权重。最后把这M个基本分类器按一定权重累加起来,就得到了最终所期望的强分类器YM(x)。迭代的停止条件就是达到了训练样本累加分类错误率为0.0或者达到了最大迭代次数。

      (i)初始化训练数据的权值分布,每一个训练样本最开始时被赋予相同的权值:1/N。


      (ii)进行多轮迭代,迭代的停止条件就是达到了训练样本累加分类错误率为0.0或者达到了最大迭代次数L。用m = 1,2, ..., M表示迭代的第多少轮,也就是得到了多少个弱分类器,M<=L。

      a.使用具有权值分布Dm的训练数据集学习,得到基本分类器:

                   

      b.计算Gm(x)在训练数据集上的分类误差率

                   

      由上述式子可知,Gm(x)在训练数据集上的误差率em就是被弱分类器Gm(x)分类错误样本的权值之和。就是在这里,训练样本权重因子发生了作用,所有的一切都指向了当前弱分类器的误差。提高分类错误样本的权值,下一个分类器学习中其“地位”就提高了(以单层决策树为例,因为每次都要得到当前训练样本中em最小的决策桩);同时若这次的弱分类器再次分错了这些点,那么其错误率em也就更大,最终导致这个分类器在整个混合分类器的权值am变低---让优秀的分类器占整体的权值更高,而挫的分类器权值更低。

      c. 计算Gm(x)的权值系数,am表示Gm(x)在最终分类器中的重要程度(目的:得到基本分类器在最终分类器中所占的权重):

                     

      可知:em <= 1/2时(两分类Adaboost算法em不可能大于1/2),am >= 0;am随着em的减小而增大,意味着分类误差率越小的本分类器在最终分类器中的作用越大。

      另外,若某一个若分类器分类错误率为0计算am将会发生除数为0的异常,这属于边界处理。此时可以根据数据集的具体情况设定错误率为一个很小的数值,例如1e-16。观察样本权重更新就可以知道:没有错分,所有样本的权重就不会进一步调整,样本权重相当于没有改变。当然,该弱分类器权重alpha将较大,但是因为算法并不因此停止,如果后面还有其他弱分类器也能达到训练错误率为0,也同样会有较大的权重,从而避免由单个弱分类器完全决定强分类器的情况。当然,如果第一个弱分类器错误率就为0,那么整个分类就完成了,它有再大的权重alpha也无妨。采用下述修正方案:

      alpha = float(0.5*log((1.0-error)/max(error,1e-16) ))

      d. 更新训练数据集的权值分布(目的:得到样本的新的权值分布),用于下一轮迭代。这使得被基本分类器Gm(x)分类错误的样本的权值增大,而被正确分类样本的权值减小。通过这样的方式,AdaBoost算法提高了较难分类的样本的‘地位’。

                

      Zm的意义在于让权重因子之和为1.0,使向量D是一个概率分布向量。其定义是

                        

      (iii) 组合各个弱分类器得到最终分类器,如下:

                       

      (三)Python实现单决策树AdaBoost算法

      单层决策树(decision stump,也叫决策树桩)是一种简单的决策树,决策树中只有一个树桩,也就是仅基于样本单个特征来做决策分类。单层决策树是AdaBoost算法中最流行的弱分类器。

      AdaBoost把多个不同的决策树用一种非随机的方式组合起来,表现出惊人的性能。第一,把决策树的准确率大大提高,可以与SVM媲美。第二,速度快,且基本不用调参数。第三,几乎不Overfitting。本节就以多个单层决策树做基本分类器实现AdaBoost算法,值得注意的是每个基本分类器单层决策树决策用分类使用的特征都是在样本N个特征中做最优选择的(也就是说在分类特征选择这个层面,每个单层决策树彼此之间是完全独立的,可能若干个单层决策树都是基于同一个样本特征),而非样本特征的串联。

      该版本的AdaBoost分类算法包含decisionstump.py(decisionstump对象,其属性是包含dim, thresh, ineqtype三个域的决策树桩,方法有buildstump()、stumpClassify()等。),adaboost.py, object_json.py, test.py,其中adaboot.py实现分类算法,对象adaBoost包含属性分类器词典adaboostClassifierDict和adaboost train&classify方法等。为了存储和传输更少的字节数,也可以在adaboost模块增加一个新类adaboostClassifier只用来存储分类词典和分类算法(本包中没有这么做)。test模块则包含了一个使用adaboost分类器进行分类的示例。

      由于adaboost算法每一个基本分类器都可以采用任何一种分类算法,因此通用的方案是采用dict来存储学习到的AdaBoost分类器,结构如下图:


      adaboost对象可以针对决策树、SVM等定义私有的各种弱分类算法,train和classifier方法则会根据当前的弱分类器类型创建响应的弱分类器实例并调用私有弱分类train\classifer方法完成train\classify。需要记住的是,adaboost train方法创建的弱分类器对象只用来调用相应的弱分类器方法,而该弱分类实例所有的属性则存储在adaboostClassifierDict中,这样可以减少弱分类器实例数目。另外,方法jsonDumpsTransfer()和jsonLoadTransfer()则要根据adaboostClassifierDict中支持的弱分类器类型删除\创建相应实例,从而支持JSON存储和解析。

      采取上图中的分类器存储方案及相应的分类函数,AdaBoost支持每一个基本分类器在决策树、贝叶斯、SVM等监督学习算法中做最优选择。分类其中adaboostClassifierDict中的classifierType用户可以自己指定,从而在上述分类存储结构的基础上做一些利于分类器程序编写的调整。我实现的单层决策树Adaboost指定classifierType为desicionstump,即基本分类器采用desicionstump,每一个弱分类器都是一个DS对象。所以存储结构可以调整为下图所示(利于分类函数实现):


      通过调整adaboost算法弱分类器的数目,会得到分类错误率不同的adaboost分类器。测试证明,numIt=50时错误率最低。

      AdaBoost分类算法学习包的下载地址是:

      machine learning adaboost

       

      (四)Adaboost应用

      由于adaboost算法是一种实现简单、应用也很简单的算法,应该说是一种很适合于在各种分类场景下应用的算法。adaboost算法的一些实际可以使用的场景:

      1)用于二分类或多分类的应用场景

      2)用于做分类任务的baseline--无脑化,简单,不会overfitting,不用调分类器

      3)用于特征选择(feature selection)

      4)Boosting框架用于对badcase的修正--只需要增加新的分类器,不需要变动原有分类器

      参考:

      AdaBoost--从原理到实现

      Adaboost 算法的原理与推导



阅读全文
0 0
原创粉丝点击