文本情感分析

来源:互联网 发布:java入门到精通3pdf 编辑:程序博客网 时间:2024/04/27 10:36
二、文本情感分析
       文本情感分析,又称意见挖掘(Opinion Mining),是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程;属于计算语言学的范畴,涉及到人工智能、机器学习、数据挖掘、信息检索、自然语言处理等多个研究领域。按照应用领域的不同,可以将文本情感分析技术分为:(1)基于产品评论的文本情感分析:处理用户发表的产品评论文本,一般用于消费者辅助决策和商业舆情监控;(2)基于新闻评论的文本情感分析:处理用户对新闻事件发表的评论文本,多用于帮助政府相关部门进行舆情监控,对大众做出正确舆论引导。
按照文本的不同粒度,可将文本情感分析划分为词语级、句子级、篇章级和海量数据级:
(1)词语级是基础和前提,主要指对评价词进行抽取,并对其情感倾向(如褒/贬、喜怒哀乐等)进行分类。这里主要依赖两种方式:(a)基于语料库,即利用大语料库的统计特性,通过观察词语之间的共现关系、句子的语法模式等现象,来挖掘语料库中的评价词语并判断极性。(b)基于词典:主要使用词典中(如WordNet 或HowNet)词语之间的词义联系(如同义词、反义词、下位词等)来挖掘评价词语。有些还需要考虑词语上下文因素。
(2)句子级的任务主要包括:(a)判断该句子是主观句还是客观句;(b)如果是主观句,则对句子情感倾向进行判断,并从中提取出与情感倾向性论述相关联的各个要素,包括:观点持有者、评价对象、评价对象的特征(如价格、地理位置、售后服务、油耗、性价比等)、情感特征、评价时间。在这里,中文分词技术是句子级中文文本情感分析的一个基础,其中中科院的ICTCLAS系统是目前最好的中文分词工具;监督学习、无监督学习、半监督学习的各种具体方法则应用于句子情感分类。
(3)篇章级是指从整体上判断某篇文档的情感倾向性;由于文档往往包含多个评论对象(或者多个主题),使得篇章级文本情感分析技术相对粗糙而不适合于大多数应用。
(4)海量数据级主要从互联网上抓取大量关于某个新闻或者相关主题、公司及其产品(或者竞争对手及其竞品)的主观评论文本,并对它们进行集成和分析,进而挖掘出大众对这些目标实体的总体褒贬态度和走势。
此外,文本情感分析是领域敏感的,例如来自图书销售领域的在线评论信息挖掘系统,可能并不适用电子数码商品销售领域;也是语言环境敏感的,例如英文文本情感分析的一些技术就不一定适合中文文本情感分析;还有一些用户出于某种目的(通常情况是,通过增强或者诋毁目标实体的声誉,以达到广告促销、错误舆论导向的目的,例如“网络水军”的灌水帖)所撰写伪造的、不真实的意见信息。这都给文本情感分析的实际应用带来困难。

三、主题模型在文本情感分析中的应用
      近年来,文本情感分析技术在网络营销、企业舆情监控、政府舆论监控等扮演越来越重要的角色。鉴于主题模型在文本挖掘领域的优势,基于主题的文本情感分析技术也成为人们关注的热点,其主要任务是通过挖掘用户评论所蕴含的主题、以及对这些主题的情感偏好,来提高文本情感分析的性能。例如,对于数码产品网购评论,主题可能是“电池续航能力”、“主屏尺寸”、“售后服务”或者“性价比”。
从技术实现的角度,PLSA和LDA及其扩展模型可以直接应用于用户评论文本挖掘中。但是,工业界发现,直接抽取主题的方式效果往往并不理想。以网上购物评论为例,原始的主题模型主要针对篇幅较大的文档或者评论句子的集合,学习到的主题主要针对整个产品品牌;而现实情形是,用户评论大多针围绕产品的某些特征或内容主题展开(如口味、服务、环境、性价比、交通、快递、内存、电池续航能力、原料、保质期等等,这说明相比于对产品的整体评分, 用户往往更关心产品特征),而且评论文本往往较短。基于此,有些研究人员提出从“词-句子-段落-文档”多粒度划分的角度抽取评论主题。
例如,Yohan Jo等人在WSDM2011会议上提出ASUM方法:将句子看作文档,句子中每个词都是隐含主题的分布,然后利用LDA进行主题挖掘;在此基础上,融合主题特征和情感信息来分析用户对这些主题的偏好,并以<主题,情感词>序对作为输出。以本文开头的评论句“比较了多个智能手机后选择了8150,性价比还可以。另外,就是考虑到它是3.7的屏幕,大小比较合适,否则携带很不方便。”为例,它主要隐含了智能手机三星8150的两个主题“性价比”和“主屏尺寸”,而与主屏尺寸相关的词语包含“3.7”、“屏幕”、“大小”、“携带”(同义词为“便携”);情感词为“还可以”、“合适”、“否则xx不方便”。与此类似的是,Moghaddam等人在SIGIR2011会议上提出ILDA方法,通过增加相关参数来改进LDA,应用于抽取评论主题、计算对主题的数字量化评分。再来考虑一个餐馆评价系统,与“价格”主题相关的词语可能包括:“价格”、“价钱”、“性价比”、“贵”、“便宜”、“人均”、“元”、“免费”、“x折”、“消费”等等;此外,也可能包含“车位”、“热情”、“生日”这样的词(或者与价格存在某些关联,或者是噪音)。
目前,网上购物评论或者新闻评论中,往往还有其他一些与评论相关的信息,如产品评分、产品特征满意度评分、优缺点区分、顶/踩、产品/新闻标签等等。如何利用这些信息帮助更精确地抽取主题、以及对主题的情感偏好,也得到研究人员的关注。例如,有些研究人员利用维基百科中的结构化文本来帮助抽取博客中的主题。此外,有一些研究工作侧重于“主题词”和“情感词”混合在一起,不加区分;还有一些研究工作通过设计合适的方法将“主题词”和“情感词”分开来抽取。
从系统设计的角度,基于主题模型的文本情感分析系统主要包括以下部分:评论信息采集与预处理(如网页爬取、中文分词、停用词处理等)、主题抽取、情感词抽取(可能涉及到情感词典构建)、主题的情感分类或评分、主题情感摘要生成(方便用户直接了解主题)、系统评测等。此外,当前的基于主题模型的文本情感分析技术主要侧重于文本评论,而较少关注与客服人员的文本问答或者语音咨询;而后者对于挖掘用户需求也是有意义的。

四、未来
目前基于主题模型的文本情感分析技术主要关注“评论文本—主题—词语”之间的关联关系,而较少从面向用户层级的角度展开研究;文本情感分析的结果,也主要面向大众化用户需求,而非个性化用户需求。事实上,这些评论都是用户相关的。研究用户层级的文本情感分析技术:用户-评论文本-主题-词语,结合推荐系统并针对特定商业应用背景开发出新型的文本情感分析应用系统,在不久的将来有望从概念走向现实应用。例如:在电子商务领域,用户往往拥有明确的用户标识,可以通过基于主题的文本情感分析技术,挖掘用户的评论信息发现具有相似偏好的用户(集体智慧)、挖掘专家意见(少数人的智慧)、挖掘社交网络中来自朋友的评价信息(社区智慧)等,来发现用户对产品及相关主题的偏好,然后再进行个性化推荐。
互联网用户生成的内容将朝着海量化、复杂化、多样化方向发展,传统的存储和计算模式将不足以支撑处理这些数据。可以利用云计算在大规模数据存储和计算、信息资源整合方面的优势,将其引入基于主题的文本情感分析技术。近年来,移动互联网受到越来越多地重视,而智能移动设备持有者都具备明确的用户标识,为基于地理位置的服务、商品推荐、搜索个性化、广告定向投放等提供了天然平台。但是,智能移动设备的输入输出能力相对较弱,移动用户行为与在传统互联网用户行为也存在较大差异,移动评论文本更短。如何通过挖掘移动互联网上的评论文本所蕴含的主题,更加准确地识别用户对相关主题的个性需求和大众化需求,从而促进精准网络营销,也是我们未来关注的研究和应用点之一。
0 0