分类器基本知识

来源：互联网发布：淘宝卖家怎么让人直播编辑：程序博客网时间：2024/04/29 04:31

分类器的作用：常规任务是利用给定的类别已知的训练数据来学习分类规则和分类器，然后对未知数据进行分类（或预测）。

分类算法：划分为了两类，
即基于概率密度的方法和基于判别函数的方法。基于概率密度的分类算法通常借助于贝叶斯理论体系，采用潜在的类条件概率密度函数的知识进行分类；基于判别函数的分类方法使用训练数据估计分类边界完成分类，无需计算概率密度函数。在基于概率密度的分类算法中，有著名的贝叶斯估计法[40]、最大似然估计[39] [149]，这些算法属于有参估计，需要预先假设类别的分布模型，然后使用训练数据来调整概率密度中的各个参数。另外，如 Parzen窗[41]、Kn邻近[42]
等方法属于无参数估计法，此类方法可从训练样本中直接估计出概率密度。基于判别函数的方法则假设分类规则是由某种形式的判别函数表示，而训练样本可用来表示计算函数中的参数，并利用该判别函数直接对测试数据进行分类。此类分类器中，有著名的感知器方法[43]、最小平方误差法[44]、SVM法[45]、神经网络方法[47]以及径向基(RBF)方法[46等。
根据监督方式划分分类算法。分类学习问题可分为三大类：有监督分类、半监督分类和无监督分类。其中有监督分类是指用来训练分类器的所有样本都经过了人工或其他方式的标注，有很多著名的分类器算法都属于有监督的学习方式，如AdaBoost[51]，SVM，神经网络算法以及感知器算法。而无监督分类是指所有的样本均没有经过标注，分类算法需利用样本自身信息完成分类学习任务，这种方法通常被称为聚类，常用的聚类算法包括期望最大化（EM）算法
[48]和模糊C均值聚类算法[49][50]等。最后，半监督分类指仅有一部分训练样本具有类标号，分类算法需要同时利用有标号样本和无标号样本学习分类，使用两种样本训练的结果比仅使用有标注的样本训练的效果更好。这类算法通常由有监督学习算法改进而成，如SemiBoost[52]、流形正则化[53]、半监督SVM[54]等。

0 0