机器学习与数据挖掘之生成模型与判别模型

来源：互联网发布：如何学好c语言编辑：程序博客网时间：2024/06/05 05:54

参考文献：机器学习与数据挖掘参考文献

监督学习的任务是学习一个模型，应用这一模型，对给定的输入预测相应的输出，这个模型的一般形式为决策函数：

Y=f(X)

或者条件概率分布：

P(Y|X)

监督学习方法分为生成方法和判别方法。所学到的模型分别称为生成模型和判别模型。

一、生成方法和判别方法

生成方法由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作出预测的模型，即生成模型：

P(Y|X)=P(X,Y)/P(X)

这样的方法之所以称为生成方法，是因为模型表示了给定输入X产生输出Y的生成关系。

判别方法有数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。判别方法关心的是对给定的输入X，应该预测什么样的输出Y。

二、生成方法和判别方法的优缺点

生成方法的特点：生成方法可以还原出联合概率分布P(X,Y)，而判别方法则不能；生成方法的学习收敛速度更快，即当样本容量增加的时候，学到的模型可以更快地收敛于真实模型；当存在隐变量时，仍可以用生成方法学习，此时判别方法就不能用。

判别方法的特点：判别方法直接学习的是条件概率P(Y|X)或决策函数f(X)，直接面对预测，往往学习的准确率更高；由于直接学习P(Y|X)或f(X)，可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。

三、典型的生成模型和判别模型

典型生成模型：朴素贝叶斯法、贝叶斯网络、隐马尔可夫模型。

典型判别模型：k近邻法、感知机、决策树、逻辑斯谛回归模型、最大熵模型、支持向量机、提升方法、条件随机场、线性回归。

0 0