深度学习在文本分类中的应用

来源：互联网发布：淘宝丝芙兰7折代购编辑：程序博客网时间：2024/04/26 01:06

引言

文本分类这个在NLP领域是一个很普通而应用很广的课题，而且已经有了相当多的研究成果，比如应用很广泛的基于规则特征的SVM分类器，以及加上朴素贝叶斯方法的SVM分类器，当然还有最大熵分类器、基于条件随机场来构建依赖树的分类方法、当然还有普通的BP神经网络分类方法。在传统的文本分类词袋模型中，在将文本转换成文本向量的过程中，往往会造成文本向量维度过大的问题，当然也有其他的压缩了维度的一些分类方法。然而，以上的这些方法，又因为在训练的过程中丢失了单词的顺序信息，在文本的分类过程中，效果又不一定尽如人意。本文主要是在学习了几篇深度学习在文本分类上的研究的论文【1,2,3,4,5】以及博文【6】之后，对其论文中提到的方法做一个简单的总结和回顾。

背景

本博文中设计的深度学习内容主要指的是RNN和CNN，而在论文【1,2,3,4,5】中其实主要涉及的是使用CNN进行文本建模与分类，论文【3】提到了使用RNN训练文本向量的方法，所以为了描述的简单起见，我直接使用了深度学习来表示本文中使用的分类方法。
CNN之所以能够被广泛运用到文本分类中去，主要的原因其实很简单，因为CNN和N-gram模型相似，CNN中的filter window其实可以看做是N-gram的方法，不过CNN因为使用了卷积层和pooling层，使得CNN能够一方面减少了训练参数个数，同时也能够抽取到文本的更高层的信息。而RNN更多的是用在文本建模以及机器翻译上，直接用在文本分类上好像不是很多的样子。

CNN用于文本分类

这里打算使用论文【1,2】来说明CNN在文本分类上的应用。两篇文章发表的日期非常接近，都是2014年的文章。

首先来看看论文【1】（Convolutional Neural Network for Sentence Classification）的具体方法
来看下作者的CNN结构：

解释一下上图：
在最左边的输出层有两个channel，每个channel是一个二维的矩阵，矩阵的列的长度等于语句sentence的长度（也就是sentence中的单词个数，通过padding使得待分类的每个sentence都有相同的长度），矩阵的行向量表示每个单词的向量形式，文中作者使用了word2vec工具初始化了，也就是每个单词都做了embedding。两个channel在初始化的时候是一样的，而之所以使用了两个channel就是因为两个channel的目的不一样，其中一个为static，也就是在给定了embedding之后，其值就不会变了，另一个channel为 non-static，表示embedding向量是参数，也是需要在推导中求出来的。使用两个channel的目的是考虑到：第一，如果只是使用static，由于使用word2vec的训练语料和试验中的实验语料可能存在不一致，导致embedding存在偏差；第二，如果只是使用单方面的non-static向量，其初始化对其结果和收敛快慢都有影响。所以使用混合的channel能够使上面的两种问题得到“中和”。
在输入层之后就是卷积层，以上图为例，最上面的filter的shape是3*6，也就是对于这句话：“wait for the vedio and do n’t rent it”,这个filter每隔三个词就做一次卷积操作，对于长度为8的句子，在这个filter的卷积操作之后，会产生一个7*1的输出。当然卷积层的filter个数和filter的shape都是可以变的，原理是一样的。
后面的一层是pooling层，这篇论文使用的是max-pooling，也就是上文的7*1 的卷积层输出将会pooling成一个1*1的数值，有n个filter就会产生n个1*1的数值，这n个数值将会用于后面的全连接层。
之后是一个全连接输出层，输出层输出的个数对应的是文本的类别数量，将上面的n个pooling层输出全连接到输出层，输出层使用的是softmax激励函数。
从上面的描述可以看出，CNN对于分本分类的思路很清晰，实现起来也不难，参数的训练我就不提了，其实验结果我会在后面的部分中给出代码和结果
然后来看看论文【2】（Effective Use of Word Order for Text Categorization with Convolutional Neural Networks）对CNN分类方法的讨论
有了上面的基础，理解论文2的观点也就变得容易了，其实论文【2】在对文本向量的预处理过程中还是显得略微粗糙，直接使用的是one-hot模型，不过是进行了一些的改进。主要的区别还是在词向量的表达方式上，在该篇论文中，作者直接使用了one-hot词向量模型，这个作者称之为seq-CNN的模型，它显然这会带来维度的剧烈增加，然后作者提出了一种改进型：bow-CNN模型，其实就是将附近的连续几个单词构建成一个词向量，其区别如下：

seq-CNN模型

bow-CNN模型
其余的训练过程和1类似，所以就不提及了。

CNN和RNN的混合使用

CNN和RNN用于文本向量的训练
论文【4】的观点比较独特，作者倒不是用CNN或者RNN去做分类模型，而是使用了CNN和RNN去训练了文本的向量，最后反而是使用普通的ANN作为分类器，这里就主要说一说作者的产生文本向量的过程
首先看看CNN模型是如何产生文本向量的。
对于长度为l的sentence，每个单词都是m维的词向量，对于一个filter，其操作如下：

上图是filter的shape是3*m,在卷积层，能够得到C1C2..Cl-2，然后对这个进行max-pooling操作，最终得到一个数值
使用n个filter重复上面的操作，我们能够得到一个n维的向量s,这个就是我们得到的文本向量。
然后看看RNN模型是如何产生文本向量的。
文中作者使用的是RNN的变体LSTM，其结构如下：

上面的x1-xl也是m维度的向量，而h1-hl是维度为n的一维向量，最后面的Pooling层代用的是max-pooling或者mean-pooling
得到文本向量之后就可以送入ANN神经网络分类器里面去进行分类训练了，训练过程就不提及了
CNN和RNN的混合模型使用
论文【3】（A C-LSTM Neural Network for Text Classification）提到了一种新的模型，也就是将CNN和RNN混合使用作为文本的分类器，论文是2015年的，我觉得观点还是比较新鲜的，所以特地拿出来讲一下。
模型如下：

前面的卷积层和前面的文章提到的是一样的，也就是对于每个filter，从sentence的embedding矩阵进行卷积操作之后，得到feature map，然后重点来了，从feature map 层到window feature sequence层，把相同颜色的放在一个序列里面，然后依次排列下来，其实很好看到，在window feature sequence层的每个序列，其实和原始sentence的序列是对应的，保持了原有的相对顺序，只不过是中间进行了卷积的操作。

window feature sequence层的序列向量是下一层的LSTM的网络的输入input，该网络使用了最后一层中间层的隐含层输出h作为该网络的输出结果output。然后就是训练LSTM的参数问题了。

实验

本文的实验是根据博文IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW进行重复实验的。针对的是论文【1】所提出的实验。

实验数据： Movie Review data from Rotten Tomatoes
数据说明：电影评论：5331的正面评论和5331的负面评论
实验工具：Google的tensor flow框架
测试集：1000
训练集：剩下的数据

实验结果：
result
说明：红色线表示的是训练集，蓝色线表示的是测试集，测试集的准确度最好大概能到76%，这和论文中的数据差不多

结论

深度学习在这几年特别火，在NLP领域，深度学习也是风中翘楚，尤其是在机器翻译、语音识别等领域颇有建树，这次也是总结了几篇关于文本分类的这方面论文，顺别学习一下Google的深度学习tensor flow框架，还是有一点小收获的。

参考文献

[1]Kim Y. Convolutional Neural Networks for Sentence Classification[J]. Eprint Arxiv, 2014.
[2]Johnson R, Zhang T. Effective Use of Word Order for Text Categorization with Convolutional Neural Networks[J]. Eprint Arxiv, 2014.
[3]Zhou C, Sun C, Liu Z, et al. A C-LSTM Neural Network for Text Classification[J]. Computer Science, 2015.
[4]Ji Young Lee, Franck Dernoncourt. Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[J]. 2016.
[5]Kalchbrenner N, Grefenstette E, Blunsom P. A Convolutional Neural Network for Modelling Sentences[J]. Eprint Arxiv, 2014, 1.
[6] IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW

0 0