分类算法

来源:互联网 发布:软件开发费计什么科目 编辑:程序博客网 时间:2024/05/17 06:26

Classification I: KNN , Naive Bayes(待整理)

算法步骤:

step.1---初始化距离为最大值

step.2---计算未知样本和每个训练样本的距离dist

step.3---得到目前K个最临近样本中的最大距离maxdist

step.4---如果dist小于maxdist,则将该训练样本作为K-最近邻样本

step.5---重复步骤2、3、4,直到未知样本和所有训练样本的距离都算完

step.6---统计K-最近邻样本中每个类标号出现的次数

step.7---选择出现频率最大的类标号作为未知样本的类标号

优点:

1.简单,易于理解,易于实现,无需估计参数,无需训练;
2. 适合对稀有事件进行分类;
3.特别适合于多分类问题(multi-modal,对象具有多个类别标签), kNN比SVM的表现要好。
缺点:

该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。 该算法只计算“最近的”邻居样本,某一类的样本数量很大。无论怎样,数量并不能影响运行结果。
该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。
可理解性差,无法给出像决策树那样的规则。

Classification II: Naive Bayes

朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。



Classification III : HMM 

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别






Classification IIII: DT



Classification IIIII:ANN

 Whatis the biological motivation of ANN?

模仿基于分布式表示的并行计算

 Whendoes ANN work?

实例以键值对的形式表示;

样本集可能有错误;

较长的训练时间可以被接受;

不要求解释学习到的模式。

3What is aperceptron

感知器是简单的单层二元分类器,通过线性边界划分输入空间。

 How to train a perceptron?

通过梯度下降算法不断优化w直到终止条件被满足(如误差小于某个阈值或者迭代次数大于某个阈值)

 What is the limitation ofperceptrons?

不能够处理非线性问题

How does ANN solve non-linearlyseparable problems?

增加隐含层

What is the key idea ofBackpropogation algorithm?

权重的修改是从后向前的,即由输出层,经由每个隐含层,到第一个隐藏层。

What are the main issues of BPnetworks?

容易陷入局部最优点;

过拟合;

学习率不易选择:太小收敛速度慢且易陷入局部最优点,太大则会震荡摆动。

What are the examples of other typesof ANN?

Elman NetworkHopfieldNetwork.


ClassificationVI:SVM


SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题.

  SVM的主要思想是针对两类分类问题,寻找一个超平面作为两类训练样本点的分割,以保证最小的分类错误率。在线性可分的情况下,存在一个或多个超平面使得训练样本完全分开,SVM的目标是找到其中的最优超平面,最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面

对于线性不可分的情况,通过使用核函数(一种非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分。

优点

Svm:算法可最终转化为凸优化问题,因而可保证算法的全局最优性,避免了神经网络无法解决的局部最小问题;

支持向量机有严格的理论和数学基础,避免了神经网络实现中的经验成分.

缺点

 (1) SVM算法对大规模训练样本难以实施

 (2) SVM解决多分类问题存在困难








0 0
原创粉丝点击