一种新型的基于隐马尔科夫模型—支持向量机模型的文本分类方法

来源：互联网发布：权力的游戏第七季知乎编辑：程序博客网时间：2024/05/01 16:22

摘要：文本分类是数据挖掘领域的一个研究热点。本文提出了一种新型的结合隐马尔可夫模型（HMM）和支持向量机（SVM）的文本分类。隐马尔可夫模型被用做特征提取，提取出来的新特征向量被规范后作为支持向量机的输入，所以成熟的支持向量机能够成功分类未知文本。实验表明这种新提取方法具有很高的精度。

关键词：文本分类；特征提取；隐马尔可夫模型；支持向量机模型。

一．引言

随着网络信息的快速发展，文本分类已经成为处理和组织文本数据的关键技术。针对文本分类可以做以下总结。给定一个训练集T{(t 1, c 1),…, (t _n, c_n)} 标记文本，每个文本Ti属于一组T，Ti中的Ci标签被定义在集合C={c₁,…, c_m }中，文本分类的目标是产生一种学习算法，给定集合T将生成一个分类器F：从D->C将能够很准确的从未知文本T中分类未知文本。包括朴素贝叶斯，最近的邻居，神经网络，支持向量机模型（SVM）等大量的技术已经被开发应用于文本分类。其中支持向量机已经被公认为是最有效的文本分类方法。这是当前计算机学习领域中的一个比较活跃的领域，而且已经被广泛应用于许多不同的领域。特别是，支持向量机在文本分类中产生优秀和卓越的结果。然而，支持向量机是土生土长的二分类机不能满足网页分类系统的多类需求。因此，许多研究者提出了改进的方法从二类支持向量机模型转向多类支持向量机。

支持向量机[2]是由Vapnik和他的小组1990年在AT&T贝尔实验室提出来的，这是目前在计算机的学习方向的一个活跃的领域，并且已经被广泛应用于许多不同的领域。特别是，支持向量机在文本分类中取得的优秀和杰出的结果。然而，支持向量机模型是土生土长的二分类机，不能满足网页文本分类系统的多类需求。因此，许多研究者提出了改进的方法转变二进制类支持向量机为多类向量机模型。

在本文中，提到了一种先进的结合了隐马尔科夫模型和支持向量机模型的文本分类技术。首先，一组隐马尔科夫模型作为特征提取器产生隐马尔科夫模型输出，这意味着歧视的信息。其次，规范了隐马尔科夫模型的输出到一个新的特征向量作为支持向量机的输入。第三，支持向量机作为分类器分类未知文本。

本文的结构如下：

第2节简要概述的内容是基于隐马尔科夫模型。

第3节介绍特征提取提供了一个关于支持向量机的简短的介绍。

第4节描述的是隐马尔科夫模型-支持向量机模型。

第5节是实验结果与分析。

最后，第6部分是总结本文探讨了未来的研究方向。

二．基于隐马尔科夫模型的特征提取

在这一部分中，针对一个文本中的特征选择方法和一种有效的分类技术进行了阐述。在分类文本中，其中包括词作为分类特征。因为它不一定保证使用文本中所有单词作为分类特征提高分类性能，所以使用适当的标准来消除文本中的无用信息。

我们可以认为，文本是对一个序列的观测O =(O1 ,…, OT )，观察Ot对应的文本标记，从技术上来讲，每一个令牌是一个由一群自然语言处理工具生成的属性向量。我们应该附加一个语义标记的X标记一些信物OT。一种提取算法映射一个观察序列O₁，……，O_T对应一个序列标签(t₁ ,…,t_T )，t={X₁,…, X_n , A} 时，一个隐马尔科夫模型l = (p , A, B) 包括简单的几个状态{S1 ,…,Sn}，当概率pi =P(q1 =Si )，这个参数在开始参数Si 和a_ij=p(q_i+1=s_i|q_i=s_i)中，参数从S_i 到S_j变换，每个状态的特点是由概率分布 bi(Oi)=P(Oi|qi=Si)从中观察。假定一个观察序列O=O₁,…,OT，根据贝叶斯原理，每一个观察者为O_i，我们可以返回一个目标X_i,每一个最大的参数P(t₁₌X_i| O)，意味着我们需要定义一序列的状态q₁,…, q_T其中最大的P(q_t=S_i|O,λ) 返回的目标是X_i，对应状态S_i对准每一个O_i，然后隐马尔科夫模型中的向前向后算法就会被描述。at (i) =P(qt =Si , O1 ,…, Ot | l)是向前的变量；在时间t内量化概率达到Si并观察的起始部分O₁,…, O_t中，bt (i)=P(Ot +1 ,…,OT | qt = Si , l)是落后的变量量化观察的机会，剩余的序列为Ot +1 ,…,O_T在状态为Si时间为t时。当然t(i) 和t(i)能够计算并且能够表达在状态为Si时间为t的参数给观察队列O，它是g t(i) =at (i)bt (i) P(O| l) 。然后利用隐马尔科夫模型提取可以描述如下[3]。

输入文本T(w₁ ,…, w_T)，隐马尔科夫模型l 或标签集X₁，…，X_n中到目标相应的隐马尔科夫模型的S₁，…，Sn。

当O_T是一个向量包含文字 W_i，生成序列O（O₁，……，O_T），这个就叫做向前向后算法计算q* = max s g (i),1 £ t £ T 。如果qi=Si{}，则输入为“< X i > wt < X i >”;否则输出W。

在特征提取后，输出结果可以被归纳为一种新的特征向量，然后支持向量机模型分类器可以用来分类一种新型的文本。我们会将在第四部分中描述的，和第三部分介绍了支持向量机模型的基本原理。

三．支持向量机模型分类器

支持向量机是一种功能强大的具有监督性的基于结构风险最小化原则的典范计算学习理论。该方法的泛化能力使它特别适用于高维数据，如文本。事实上，它已经表明，在文本分类任务这方面，支持向量机模型优于大多数其他的分类算法。

假设给定一组例子{(x₁, y₁),(x₂, y₂ ),…,(x_k , y_k)}，当xÎR n ,时y Î{-1, +1}。我们认为形式sgn((w•x)b)决定功能，其中(w•x)表示它的内集合函X。一次a决定作用fw，b决定这个参数。

yi ((w•x) +b) ≧1,1 ≦i ≦k （1）

但是，在许多情况下，分离超平面是不存在的，允许违反方程的可能性（1），松弛变量像x ³ 0, i = 1,…, k，因此支持向量机模型问题可以被描述为：

Minimize f(w,x ) = (w•w)+C （2）

22222222

上述优化问题是一个约束的二次规划（QP）问题，以上可以归结为以下QP问题：

（3）图

i是拉格朗日乘数，C是一个参数，指定错误分类的样本的成本。通过求解QP问题的解决方案，提出了一个形式的决定性作用，公式是：

（4）

当B是一个偏项时，只有一小部分的系数,i是非零的。条目对应的被称为支持向量和他们完全定义决策功能[4，5]。

因此，上述决策函数表示为数据的内积。这个观察导致的推广到非线性的情况下，这是由问题的数据映射到高维空间H（特征空间）通过一个表格x_i•x_j=∅(x_i)∅(x_j) .映射函数隐式定义通过一个对称正定核函数K(xi,xj)=∅(x_i)∅(x_j)。然后，决策函数可以改写为：

（5）
四．结合隐马尔科夫模型和支持向量机模型

从第六段到第七段中提出的文本分类和支持向量机相结合的一种新方法。这种新方法被称为隐马尔科夫模型-支持向量机模型。特征向量提取的隐马尔科夫模型和他们在同一个纬度可以嵌入在相同的向量空间中。同时，特征向量的维数明显降低，这样的速度和规模问题解决支持向量机问题。因此，一个重要的过程是利用隐马尔科夫模型产生这样的特征向量与文本。

考虑到K类A = {A ,…, A }，各自的隐马尔科夫模型集l¢ = {l ,…, l } ，当l¢= {l1 ,…,liNi}，因此，隐马尔科夫模型的总数是计算概率P(O|l)为一组隐马尔科夫模型的。假定在标签的AI对应最大概率的组。当然我们得到的特征向量g= {w1 ,…, wt ,…, wM }与隐马尔科夫模型通过用第二节介绍的方法，然后，A和G组合而成的一种新的特征向量 g{A , g}.规范得到的新的特征向量由这起着重要作用在预处理的支持向量机分类中。现在我们已经看到了如何使用一个给定的隐马尔可夫模型的特征提取，但我们还是要研究我们如何学习参数隐马尔科夫模型来自的集合O= {O1 ,O2 ,…, OK }例如序列。为了解决这个问题，鲍姆-韦尔奇所使用的方法是使用下面的公式估计的参数（6）和（7）：

（6）

在e k (i, j)与g k (i)联合的事件与第K个观察序列分别相关的状态变量，给定一组从隐马尔科夫模型得到的新的特征向量，多类支持向量机算法可描述为构建一个二进制数的支持向量机的任务（在第4节中会有的细节介绍）；对于不同的类i和j每个分类器C_ij需要与积极的标签第i类样本训练，和在负面的标签的第j类样本。使用这个分类函数由下式给出：

（8）

我们可以看出是从训练数据中的i和j类的总数，上述的支持向量机方法是一对一方法[8]。当给定一个未知的样本时，如果决策功能的预言样本属于 i类，则类C_ij导致分类需要的属性一类投票，否则投票是由于J类当从所有的二分类选票得到未知样品，属于类具有最高票。

五．实验结果与分析

评价提出了新的分类方法的有效性，我们选择一个文本集，其中包括800篇，共分部四类中：运动，金融，技术和汽车。在我们的实验中，600个文本作为训练集，其余的200个文本作为测试集。一些隐马尔科夫模型训练提取每类文本的特征和支持向量机进行训练，六个隐马尔科夫模型找到分离的决策超平面，最大化分类类别的边缘。我们使用的分类正确率估计的性能分类。我们比较新方法的平均分类的正确率与其他方法以及平均测试结果如表1所示：

文本分类的最佳方法，而传统的SVM支持向量机方法比临近算法相比具有更好的效率。

表1 三种方法的分类正确率

方法

邻近算法（K=10）

支持向量机

隐马尔科夫模型-支持向量机

运动

84.44%

88.89%

93.33%

金融

81.82%

83.64%

89.09%

科技

73.81%

78.57%

83.33%

汽车

84.21%

87.72%

91.22%

平均比率

81.41%

84.92%

89.45%

六．结论

结合隐马尔科夫模型和支持向量机模型的文本分类技术提出了新的分类方法，以及本研究的主要贡献是将隐马尔科夫模型和支持向量机模型解决多类分类问题。实验结果表明，它的表现非常好的，相比传统的邻近算法和支持向量机模型。隐马尔科夫模型-支持向量机模型具有更加长远的能力。例如，我们认为减少从文本特征的噪声是值得进一步调查。此外，如何减少训练的计算时间仍然是一个有待进一步研究的问题。

致谢

这一研究项目成立，作为“分布式数据挖掘”项目由中国国家自然科学基金的一部分进行推广优化（NSFC）60573139号。

参考文献

[1]. 斗沈，严丛，JIAN-TAO SUN等人，“中文网页分类的研究，进行第二国际会议在机器学习和控制，西安，十一月，2003页23-27,2-5。

[2]. v.vapnik，性质的统计学习理论[M]，施普林格，新约克.1995。

[3]. 托拜厄斯•斯特凡，基督教Decomain，罗贝尔，“主动隐马尔可夫模型的信息提取”，施普林格出版社柏林-海德堡，pp.309-318，2001。

[4]. 迈克尔Doumpos，康斯坦丁Dopounidis，瓦西里基Golfnopoulou，“模式识别”的添加剂，支持向量机，IEEE系统，人，和cybernetics-part B：控制论，第37卷，第三，pp.540-550，六月2007。

[5]. 薛卫民，红包，胃痛黄等人，“基于SVM的网页分类，第六届世界智能程序，控制和自动化，pp.6111-6114，六月21-23日，2006。

[6]. 阿尔巴Sloin Burshtein，戴维，“支持向量机重新评分的隐马尔可夫模型”，IEEE第二十四公约的电气和电子工程师在以色列，376-380页，2006。

[7]. 叶建军，姚明鸿讯，江枫，“基于HMM和支持向量机的多层体系结构分类对中国手语识别大词汇”，IEEE图像和Graphixd 第三国际会议（集成相干红外发生器2004），2004。

[8]. 邹家齐，陈国龙，文中郭，“使用噪声容限的支持向量机的中文网页分类的问题，NLP-KE，pp.785-790出发，2005。

0 0