【情感分析】基本流程和思路

来源:互联网 发布:网购比价软件 编辑:程序博客网 时间:2024/06/08 17:12

特别是声明,未经过博主的同意禁止转载

1 引言

情感分析(sentiment analysis)简称SA,也叫意见挖掘,在一些现有的研究中,认为情感分析和意见挖掘的表达可以互相取代。但是,有些学者任务情感分析和意见挖掘之间还是存在细微的差别,他们认为意见挖掘主要注重提取和分析人们关于一个实体的意见,而情感分析更注重于识别一个文本中所表达的情感。在本文中,也没有过于纠结这个细微的差别,认为这两个概念基本是等同的。情感分析,自2000年开始一直是自然语言处理领域最活跃的研究领域之一。情感分析的目的是定义一种自动化的工具,能够从自然语言的文本中提取出主观的信息,如意见或情绪,从而产生结构化和可操作的知识,供决策者和决策系统使用。情感分析和意见挖掘是相互关联的研究领域,它是关于一个实体的文本的意见、情感和态度的计算的研究。
情感分析是比较热门的研究邻域,吸引了很多学者的关注,同时情感分析有很多实际应用的背景。通过对网上的文本进行情感分析和意见挖掘,政府可以获得公众的政治意见;公司能够进行市场研究,从而发现产品或者服务薄弱之处;消费者可以对购买产品或者服务做出更好的决策。除此之外,还有通过意见挖掘社交媒体网络中用户生成内容(user-generated content),分析数据来衡量一个公司的声誉;也有通过对社交媒体(Twitter)数据进行意见挖掘,从而实现实时交通事故的监测。

2.情感分析的分类

近几年来,已经提出了超过几十种情感分析技术。根据现有的情感分析理论和技术基础,情感分析可以分为两大类:基于机器学习(machine learning)的情感分析和基于情感词典(sentiment lexicon-based)的情感分析。另外,基于机器学习的情感分析又可以分为三个子类:有监督的机器学习,无监督的机器学习和半监督的机器学习。当使用有监督的机器学习时,根据不同的训练标记样本的算法,得到不同的情感分类器,例如:决策树分类器、线性分类器、基于规则的分类器、概率分类器等。对于没有标记训练样本的情况下,则使用基于无监督机器学习的方法。首先根据类别关键词列表测量文本的相似性,然后根据文本的相似性聚类为多个组。半监督的机器学习技术往往用于标记部分的句子或者数据的情况。另一方面,基于字典的情感分析技术可以进一步分为子类:基于情感字典的情感分析技术;基于语料库情感分析技术。其中,基于情感字典情感分析技术重中之重是构建情感字典,少量的情感词可以手动进行标记,比较常用的情感词典有WordNet,HowNet 和Thesaurus。同时,现在情感词在不断的增加,还有一些口语化语句,新词新义不断涌现,这就导致了我们常常要根据所需去构建专门的情感字典。基于语料库的情感分析技术常常用于解决上下文特定方向的意见的问题。该技术的核心是找到语法关联和意见的种子词列表。因此,可以采用统计学技术来找出关联出现和意见种子词,而语义技术则可以根据不同词的相似性来确定不同词的语义值。因为在文献的综述里都有,在这里就不对这些情感分析现有研究的详细展开了。


分类图示

3.基于词典的情感分析(引用http://www.jianshu.com/p/60505518d7ee)

基于词典的方法主要通过制定一系列的情感词典和规则,对文本进行分割、句法语义进行分析,计算得到情感分值,得出文本的情感倾向。情感分析对象的粒度最小是词,然而表达情感的一般都是词组或者句子,单个的词虽然能描述情感的基本信息,但单一的词汇缺少对象,缺少关联度,并且不同的词汇组合在一起得到的情感强度不同,甚至加入否定词会使情感极性完全相反。所以,一般以句子作为情感等系的粒度。

基于情感分析大致步骤:

(1)分解文章段落

(2)分解段落中的句子

(3)分解句子中的词汇

(5)情感词标注和统计

(6)情感副词和否定词权重赋值

(7)计算句子情感得分

(8)计算段落情感得分

(9)计算文章情感得分

给大家推荐一个网站:https://site.douban.com/146782/widget/notes/15462869/note/355625387/

里面有大神讲解了基于词典的中文情感倾向分析算法设计

4.基于机器学习的情感分析

其实本质还是一个分类的过程,基于机器学习的情感分类方法稳定性较好,精确度更高。因为基于词典的情感分析会由于语义表达的的丰富性和词典的质量很大的差别,而机器学习不会。而且应用的场景更加多样,不管是主观分类还是负面情感分类,机器学习都可以完成任务。

目前,主流的分类方法有:

(1)NB(Naive Baye method)朴素贝叶斯方法

(2)ME(Maximum entropy method)最大熵方法

(3)SGD(Stochastic gradient descent method)梯度下降法

(4)SVM(Support vector machine method)支持向量机方法

(5)N-gram model (比较新,根据汉语语言模型)

以上分类方法就不一一详细展开了,如有感兴趣的可以查找相关资料。


特征选择的方法:

(1)DF(Document Frequency)文档频率

(2)MI(Mutual Information)互信息

(3)IG(Information Gain)信息增益

(4)CHI(卡方统计)

常用的权重计算方法:

(1)布尔权重(Boolean weighting)

(2)频度权重(Frequency weighting)

(3)词频-逆向文档频率权重方法(TF-IDF weighting)

今天先写到这里,后续在慢慢补充整理,也欢迎各位大神给出补充意见。

原创粉丝点击