分类

来源：互联网发布：阿里腾讯混合云编辑：程序博客网时间：2024/04/27 20:17

分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程：第一步，建立一个模型，描述预先的数据集或概念集。通过分析由属性描述的样本（或实例，对象等）来构造模型。假定每一个样本都有一个预先定义的类，由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集，这一步也称作有指导的学习。

在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型（Decision Tree Model）和朴素贝叶斯模型（Naive Bayesian Model，NBC）

决策树模型通过构造树来解决分类问题。首先利用训练数据集来构造一棵决策树，一旦树建立起来，它就可为未知样本产生一个分类。优点：决策树便于使用，而且高效；根据决策树可以很容易地构造出规则，而规则通常易于解释和理解；决策树可很好滴扩展到大型数据库中，同时它的大小独立于数据库的大小；可以对有许多属性的数据集构造决策树。缺点：处理缺失数据时的困难，过度拟合问题的出现，以及忽略数据集中属性之间的相关性等。

NBC发源于古典数学理论，有着坚实的数学技术，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。

解决这个问题的方法一般是建立一个属性模型，对于不相互独立的属性，把他们单独处理。例如中文文本分类识别的时候，我们可以建立一个字典来处理一些词组。如果发现特定的问题中存在特殊的模式属性，那么就单独处理。

这样做也符合贝叶斯概率原理，因为我们把一个词组看作一个单独的模式，例如英文文本处理一些长度不等的单词，也都作为单独独立的模式进行处理，这事自然语言与其他分类识别问题的不同点。

在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。但这点有待验证，因为具体的问题不同，算法得出的结果不同，同一个算法对于同一个问题，只要模式发生变化，也存在不同的识别性能。

决策树对于文本分类识别，要看具体情况。在属性相关性较小时，NBC模型的性能稍微为良好。属性相关性较小时候，其他的算法性能也很好，这是由于信息熵理论决定的。