详解五大分类方法及其优缺点，数据挖掘师必会！

来源：互联网发布：高仿京东商城源码编辑：程序博客网时间：2024/05/21 20:30

分类算法是一种在专家指导下的，有监督的数据挖掘方法，其种类很多，包括：
传统方法：线性判别法、距离判别法、贝叶斯分类器；
现代方法：决策树、神经网络ANN、支持向量机SVM；

1、决策树
决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无次序、无规则的实例中，推理出以决策树表示的分类规则。

2、贝叶斯
贝叶斯（Bayes）分类算法是一类利用概率统计知识进行分类的算法，如朴素贝叶斯（Naive Bayes）算法

这些算法主要利用Bayes定理，来预测一个未知类别的样本属于各个类别的可能性，选择其中可能性最大的一个类别作为该样本的最终类别。

由于贝叶斯定理的成立，本身需要一个很强的条件独立性假设前提，而此假设在实际情况中，经常是不成立的，因而其分类准确性就会下降。

为此就出现了许多降低独立性假设的贝叶斯分类算法，如TAN（Tree Augmented Naive Bayes)算法，它是在贝叶斯网络结构的基础上，增加属性对之间的关联来实现的。

3、人工神经网络ANN
人工神经网络，是一种应用类似于大脑神经突触联接的结构，进行信息处理的数学模型。

在这种模型中，大量的节点（或称”神经元”，或”单元”）之间相互联接构成网络，即”神经网络”，以达到处理信息的目的。

神经网络通常需要进行训练，训练的过程就是网络进行学习的过程。
•训练改变了网络节点的连接权的值使其具有分类的功能，经过训练的网络就可用于对象的识别。
•神经网络已有上百种不同的模型，常见的有BP网络、径向基RBF网络、Hopfield网络、随机神经网络（Boltzmann机）、竞争神经网络（Hamming网络，自组织映射网络）等。

4、kNN(k-近邻)

k-近邻(kNN，k-Nearest Neighbors)算法是一种基于实例的分类方法。

该方法就是找出与未知样本x，距离最近的k个训练样本，看这k个样本中多数属于哪一类，就把x归为哪一类。

k-近邻方法是一种懒惰学习方法，它存放样本，直到需要分类时才进行分类，如果样本集比较复杂，可能会导致很大的计算开销，因此无法应用到实时性很强的场合。

5、支持向量机SVM

支持向量机（SVM，Support Vector Machine）是Vapnik根据统计学习理论，提出的一种新的学习方法。

支持向量机（SVM，Support Vector Machine）的最大特点是：
•根据结构风险最小化准则，以最大化分类间隔，构造最优分类超平面，来提高学习机的泛化能力，较好地解决了非线性、高维数、局部极小点等问题。
•对于分类问题，支持向量机算法根据区域中的样本，计算该区域的决策曲面，由此确定该区域中未知样本的类别。

在没有更多背景信息给出时，如果追求预测的准确程度，一般用支持向量机（SVM），如果要求模型可以解释，一般用决策树。

阅读全文

0 0