machine learning model 简单罗列

来源:互联网 发布:java工程师要学什么 编辑:程序博客网 时间:2024/05/22 09:50

针对统计机器学习中各模型特点,作下总结,当做复习;
从生成模型和判别模型考虑,生成模型即学习随机变量X,Y的联合概率分布P(X,Y),然后由贝叶斯公式计算得到P(Y|X),典型生成模型有朴素贝叶斯、高斯判别分析、贝叶斯信念网络、隐马尔科夫;判别模型即直接学习条件概率P(Y|X)或者决策函数f(X),典型判别模型有感知机、k近邻法、决策树、逻辑斯谛回归、最大熵、支持向量机、提升方法、条件随机场;
生成方法的特点:生成方法的学习收敛快,即当样本容量增加的时候,学到的模型可以更快地收敛,当存在隐变量时,仍可以用生成学习方法(隐马尔科夫、混合高斯),判别模型则无法直接学习。
判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或者决策函数f(X),直接面对预测,学习的准确率往往更高;

下面针对具体各模型的特点进行阐述
1、决策树,作为随机森林和GBDT的基础;它在具体实现的时候可以分为ID3(在特征选择基于信息增益),C4.5(信息增益率),CART(回归时选择平方误差and 分类时选择基尼指数);它作为一种构建模型的非参数方法,不需要任何先验假设,不需要假定类和其他属性满足一定的概率分布;找到最有的决策树一般是NP完全问题,一般采用启发式的方法进行搜索;模型一断建立好,训练速度快;对于噪声具有相当好的鲁棒性;冗余属性不会对准确率产生影响,个人感觉不相关属性也不会造成太大影响,最好在用决策树时,对不相关属性进行剔除;可能会产生数据碎片的问题,故在样本数小于特定阈值应停止划分;
往往决策树模型容易导致过拟合问题,故出现了剪枝技术,但是随着随机森林的出现,往往都不会进行剪枝,而是采用了bagging的方法,重复的进行有放回的抽样,建立m个决策树,这样往往可以可以避免过拟合问题;或者选用boost方法,如adaboost和GBDT等先建立弱的分类模型,然后不停地迭代提升;

2、k邻近方法,一种消极学习方法,不需要建立模型;一种基于距离的分类方法,需要距离度量,故特征要进行归一化;对比积极学习方法,分类测试样例开销大,而积极学习方法花费大量时间建立模型,模型一旦建立,分类测试样例非常快;k值的选择一般对应了模型的能力,k越小,能力越强,可以拟合任何形状的决策边界,对应了高方差;反之,高偏置

3、朴素贝叶斯
面对孤立的噪音点,分类器健壮,因为在计算条件概率时,这些点被平均了;面对无关属性,分类器健壮,因为在计算条件概率P(Xi|Y)时,它基本上成了均匀分布了。然而面对相关属性,无能为力了,其假设即为特征条件概率相互独立。一般对应了高偏置,假设简单了点。

4、逻辑斯谛回归
一种广义的线性判别模型,效果与SVM(无核函数)差不多,一般对特征要归一化,分类特征二值化,能够采用正则化的方法自动进行特征选择;模型的假设采用对数损失函数(凸),故学习问题为凸优化问题,一般采用梯度下降训练,收敛到全局最优解;是一个二分类方法,如果对于多类要进行拓展;

4、人工神经网络
至少含有一个隐藏层的多层神经网络,可以用来近似任何目标函数,因此假设空间大,容易造成过拟合;可以处理冗余特征,因为权值在训练过程中自动学习,冗余的特征权值非常小;对噪声非常敏感;一般使用确认集来确定模型的泛化误差;训练耗时,测试样例非常快;

5、支持向量机
SVM学习问题为带有约束凸优化问题,采用坐标上升进行学习;通过最大化决策边界的边缘分布来控制模型的泛化能力;参数比较多,比如代价系数C,C越大,模型拟合能力越大,一般对应了高偏差,泛华能力减弱;如果采用核函数往往模型能力也增强,因为决策边界成了非线性边界,核函数的参数也影响模型的泛化能力;分类属性记得二值化;二分类方法,需拓展到多分类;

6、Ensemble方法
一、装袋(bagging)
采取有放回地随机抽样,抽取的样本量与原数据集等大,但有效容量只有原来的67%,通过训练出多个模型进行加权、投票来决定最终的分类的结果;装袋的性能依赖于分类器的稳定性,如果分类器是不稳定的,装袋有助于减低训练数据随机波动产生的误差,即往往对于高方差模型有较好的结果,对于那些稳定的有与高偏置的模型不会有好的效果;它能够增强目标函数的表达功能,且有于每个样本的被选中的概率是一样的,并不侧重于训练数据集中任何一个样例,故用于噪声数据,装袋往往不太受过拟合的影响;典型的模型有随机森林,它的泛化误差随着树的相关性增加或组合分类器的强度而降低,故使用的时候,一般会采用随机化的方法减少树之间的相关性;但选取的特征数越大,偏置越小,树之间相关性越大,作为折中,选取F = logd + 1;如果原始特征太小,采取一些小trick,创建输入特征的线性组合来增大特征空间;
二、提升(boost)
不采取抽样的方法,它是一个迭代的过程,用来自适应改变样本的权重,使基分类器聚焦在哪些很难分类的样本上面;只要满足基分类器的错误率小于50%,组合分类器的训练误差将以指数级减小;由于它总是倾向于误分类的样本,故容易受过拟合的影响;典型的模型有adaboost和GBDT;
先写这么多了,未完待续。。。

0 0
原创粉丝点击