文本倾向性分析综述

来源：互联网发布：软件设计师培训视频编辑：程序博客网时间：2024/04/27 23:07

2008/10/13 20:50

最近看了两篇关于文本倾向性分析的硕士学位论文（金晓鸥 (2008). 互联网舆情信息获取与分析研究. 上海, 上海交通大学.；肖伟 (2007). 基于语义的BLOG社区文本倾向性分析. 上海, 上海交通大学.），总结了一下：

1. 文本倾向性分析的定义和主要任务

Peter等人指出，文本倾向性分析(SentimentClassification)就是对用户对某个事物（如产品）的看法或评论（在BLOG社区中是以blogentry的形式出现）文本的挖掘，从而得到该看法或评论是属于对该事物的积极或消极意见。所以，文本倾向性分析(SentimentClassification)正是解决上述问题的关键技术。

Tetsuya Nasukawa等指出：文本倾向性分析中的主要任务有以下三个：(1)找出文档中能够体现情感的词或短语；(2)判断所找出的词或短语的倾向性极性以及强度；(3)找出所抽取的词或短语与主题的关系。

2.文本倾向性分析的主要方法

主要有基于语义的以及基于机器学习的文本倾向性研究两种。

1.基于语义的文本倾向性研究方法：
a 先对待分析文本中的形容词或能够体现主观色彩的短语进行抽取，然后对抽取出来的形容词或短语逐一进行倾向性判断并赋予一个倾向值，最后将上述所有倾向值累加起来得到文章的总体文本倾向性。
b 预先建立一个倾向性语义模式库，有时还会附带一个倾向性字典。然后将待估文档参照语义模式库做模式匹配，最后累加所有匹配模式对应的倾向性值从而得到整个文档的倾向性。

有的是基于词和短语模式，有的是基于语义模式库来分析。

2.基于机器学习的传统文本分类技术
先通过人工标注一些文档的倾向性，并将这些文档作为训练集，再通过机器学习的方法构造一个褒贬两类分类器。最后使用构造好的褒贬两类分类器对待估文档进行分类，即识别出该文档的倾向性。常用SVM（支持向量机）。

发现不管是那种方法，已经有挺多的实现方式，如果想要有创新的话，需要改进现有的这些方法。可惜的是，自己还不具备这样的能力。这样写下去，也许这是个挺有意义的论题，可是能不能做出什么成果来就能值得怀疑了。

上次耿老让我去找trec blog track的语料库的信息，发现要￡400，好昂贵啊。然后找了个中文的语料，是北大弄的，网址是http://www.cwirf.org/。可惜样例下下来了不会用。晕死。。。。唉，觉得还是不要写这方面的好，无论如何是写不出来什么好的呢。烦啊。。。。