《Learning Sentiment-Specific Word Embedding for Twitter Sentiment Classificaton》阅读笔记

来源：互联网发布：淘宝怎么买游戏账号编辑：程序博客网时间：2024/06/06 02:05

提出一种为实现Twitter情感分类的学习Word Embedding的方法。

以往的问题：现有用于学习连续词特征表示方法仅进行了语义建模，而忽略了文本的情感。现有的用于情感分类的方法大都把注意力集中在特征工程上，原因是情感分类的好坏程度取决于选择特征的好坏。
解决方案：建立了一种三层的网络学习情感词向量，即sentiment-specific word embedding（SSWE），从大量的弱监督tweets进行学习，无需大量人工注释。

2 国内外研究现状

2.2 学习用于情感分类的连续型特征
Pang等人（2002）是使用bag-of-word作为特征的领域开拓者，用one-hot形式代表每一个词。长度与词汇量的尺寸相同，只有一个维度是1，其他都是0。根据这个想法，后续提出了许多特征学习算法用于改善分类性能（Pang and Lee,2008;Liu,2012;Feldman,2013）。然而，这种one-hot形式不能有效的获取词语复杂的语言学特征。
随着深度学习的流行（Bengio et al.,2013），把包含着连续的特征作为词的特征在许多NLP任务中证明是有效的，如分词（Socher et al.,2013a）,语言建模（Bengio et al.,2003；Mnih and Hinton,2009）and NER(Turian et al.,2010)。在情感分析领域，Bespalov et al.(2011;2012)通过潜在的语义分析初始化词向量并且进一步表征每个文档的特征作为ngram向量的权重进一步用于情感分类。Yessenalina and Cardie（2011）把每个词建模成矩阵并且通过使用迭代矩阵乘法的方式将多个词合并在一起。Glorot et al.(2011)探究了Stacked Denoising Autoencoder（迭代去噪编码）的方法用于情感分类的领域适应问题。Socher et al.提出了Recursive Neural Network(RNN)(2011b),matrix-vector RNN（2012）和Recursive Neural Tensor Network(RNTN)（2013b）来学习任意长度的短语的组合。
词语的特征很大情况下依赖于应用场景和任务（Labutov and Lipson,2013）。本文集中学习sentiment-specific 词向量，是专门为情感分析任务定制的。与Maas et al.（2011）不同的是，Maas依据概率文档模型（Blei et al.,2003）并且为每个词给出了情感预测函数，本文建立神经网络并且将每个ngram于句子的情感极性相匹配。与Socher et al.(2011c)不同的是，Socher使用人工标注的文档来学习短语（或句子）的意义，本文集中从大量的弱监督tweets学习词的意义，即Word embedding。

3 SSWE用于Twitter句子分类

本文在现有的方法是基于已有的word embedding（Collobert et al.,2011）方法的基础上建立了三层神经网络来学习SSWE。
3.1 C&W 模型
Collobert et al.(2011)引入了C&W模型去根据某词语的上下文来学习该词语的Word embedding。
3.2 Sentiment-Specific Word Embedding
第一个模型：（SSWEh）
第二个模型：（SSWEr）
联合模型：（SSWEu）
模型损失函数
模型训练
训练样本是抓取包含积极和消极表情符号的Twitter（2013年8月1日-31日）；
分Twitter工具：TwitterAPI（Gimpel et al.,2011）；
预处理：去除@用户名、URLs、滤除长度小于7的tweets；
训练数据规模：5Mpos,5Mneg;
补充：（1）模型的训练通过计算loss值的倒数，然后反向传播更新模型中的所有参数，最终使得loss值收敛。
（2）用AdaGrad优化算法更新参数因，设为0.1。
（3）根据经验将窗口尺寸设为3，embedding长度为50维；
（4）对unigrams,bigrams,trigrams分别训练embedding。

阅读全文

0 0