基于用户社会影响建模的情感识别系统框架(IEEE2014)

来源:互联网 发布:js和jsp的区别和联系 编辑:程序博客网 时间:2024/06/06 08:59

A Systematic Framework for Sentiment Identification by Modeling User Social Effects 基于用户社会影响建模的情感识别系统框架(IEEE2014)

在社会平台中,用户与社会品牌交互,他们对于特定话题的观点不可避免地依赖于许多社会影响如用户话题偏好,同伴影响,用户资料信息等。文章提出一个系统框架,除了文本信息,引入用户社会影响来识别情感。由于数据量大,采用分布式基于项的协同过滤技术评估用户偏好。情感分析的结果可以帮助用户或管理者做出精明的决定。文章测试不同的相似度测量方法来得到最小估计误差。为了避免数据稀疏性,使用高层次信息如Facebook或Twitter上的类而不是个人页面代表项。文章的贡献:

  • 提出了一个分布式基于项的协同过滤技术,基于大量用户历史活动近似用户偏好。
  • 开发了一个模型,基于心理学上的群行为获取之前用户的影响(同伴影响)。
  • 提出了一个系统框架,除了文本情感,引入用户社会影响如:用户偏好,同伴影响,用户信息提高情感识别。
  • 在四个主要社会媒体数据的实验表明该方法可以显著提高情感分类准确率。

定义问题

输入

  • 带话题Ci(通常是类别)的社会品牌Bi下的讨论线程Di,以及用户(Ui1,Ui2,,Uik)给出的所有之前文本评论的情感(Ti1,Ti2,,Tim1)
  • PUimCi:来自用户Uim的关于当前话题Ci的偏好。所有这类偏好通过协同过滤计算。

输出

  • 识别的来自某个用户(Uij)的第m个评论(Tim)的情感。是一个迭代过程。

方法

在引入用户社会影响的情感识别系统全局框架中,采用支持向量机(SVM)学习模型分类情感。四个主要的特征包括用户偏好,同伴影响,文本分析和用户资料信息。

用户偏好

近似用户对于话题的偏好,动机是用户偏好在一定程度反映用户情感。用户偏好近似基于用户历史活动(喜好或评分)的原因是这些量化指标可以更直接地反映用户偏好的力量。基于用户-项矩阵(项可以是Facebook或Twitter上的页面类或者亚马逊或航空公司的产品类)使用协同过滤(CF)技术近似用户偏好。有3种协同过滤类型:基于用户,基于项和基于内容。在基于用户的协同过滤系统,特别是基于邻居的,用户与用户相似度的计算成为性能瓶颈,本文涉及大量用户,情况更糟。确保高扩展性的方法是基于项的方法。本文使用参考文献实现的扩展的基于项的协同过滤库。
基于项的协同过滤最大的挑战是数据稀疏问题。解决策略:集成多个低层项为更少的高层项。例如:“Mac”和“iPhone”在Facebook有相同的类别:“计算机和电子”。“计算机和电子”是代替2个低层个体项(页面)的高层项。在2个个体页面的所有用户活动将聚合到“计算机和个体”项。“用户-项”矩阵有成千上万的社会用户,它的列是高层项。项的数目减少到类的数目。
另一个重要问题是如何计算项间的相似度以及选择最相似的项。基本思想:首先分离给两个项i和j都打过分的用户,然后采用相似度计算决定相似度si,j。文章描述了5种相似度计算方法:Cosine相似度、皮尔逊相似度、Tanimoto系数相似度、基于log可能性的相似度和欧拉相似度,调查哪一种方法得到最小逼近误差。

  • Tanimoto系数相似度:基于位图,给定大小数组中的每一位代表平面上特征的出现或不出现。如果项X和Y是位图,Xi是X的第i个位,是按位与和或操作。相似度比率Ts(X,Y)=i(XiYi)i(XiYi)。相似度Td(X,Y)=log2(Ts(X,Y))
  • 基于log可能性相似度:类似于基于Tanimoto系数的相似度。它不考虑个体偏好值。它基于两个用户的共同项数,但是它的值是两个用户有这么多重叠的不可能性。
    选择最好相似度计算方法的评估指标:真实用户评分Xi和预测值Yi的平均绝对误差(MAE)和均方根误差(RMSE)。
    使用加权和策略近似每项的用户偏好:Pu,i=jISSi,jRu,jjIS|Si,j|,其中IS:与i相似的所有项的集合,Ru,j:用户u对项j的打分。

同伴影响

用户要评论时,不可能读完之前所有的评论。引入指数衰减因子减弱高页码上的评论的影响。页面越老,对当前用户的影响越小。对于第i页,权重是e1i。数学定义为:PeerInf=lNFiPosRie1iN,其中lNF=1,如果不是第一条评论,否则,lNF=0,i:页码,N:总页数,PosRi:第i页的所有之前评论的积极比例。

用户资料

话题类型和用户资料信息也是情感倾向的弱指标。由于隐私设置,不能获得其他用户资料信息,如:地理定位,用户朋友,教育背景,用户兴趣等。从Facebook和Twitter随机选择3个不同页面类从性别和话题类型方面考虑情感分布。结果表明女性比男性更积极,时尚网页比政治网页有更高比例的积极情感。检查其他类得到同样的模式。

文本情感

文本情感识别算法集成了以下3个不同的单个组件。

  • 第一个是参考文献中的扩展于基本成分语义规则的基于规则的方法,包括12条语义规则和2个组成函数。如规则A:如果句子包含关键字“但是”,只考虑“但是”子句的情感。
  • 第二个组件是基于频率的方法。情感不能简单地划分为积极,消极或者客观,需要一个连续的数值分来反映情感强度。情感强度由句子中使用的形容词和副词来表达。考虑产生数值分的两种类型的短语:副词-形容词-名词形式的短语(简记为AAN)和动词-副词短语(VA)。关键词的得分基于用户评论集计算(参考文献)。
  • 第三个词袋组件,考虑社会媒体文本中广泛使用的特定字符,如表情符号,否定词和它们对应的位置以及领域特定词。
  • 最后,随机森林机器学习模型应用于3个组件产生的输出特征。输出代表3个基本特征(TS1,TS2,TS3)和两个导出特征(TS1+TS2,TS1TS2)。情感识别算法在人工标记的Facebook评论和Twitter微博上训练获得86%的准确率。

实验和结果

实验数据建立

对于Facebook的每个网页,下载所有的帖子,评论,喜好和对应的用户从他们注册账号以来的资料。
对于每个微博网页,下载博文,粉丝和对应的用户资料。对于亚马逊上的每个商品,下载所有的商品信息和对应的评论。这些商品来自10个随机选择的类……用户-项矩阵M中的元素Mij在Facebook中是用户i给类j的喜欢数,在商品评论中是5星打分,在微博中是是否关注。数据清理:与大量网页连接的用户可能是垃圾用户。设置阈值150,舍弃喜欢超过150个帖子的用户。一些用户喜欢许多由相同页发表的帖子,同样设置阈值90%。最后移除在相同品牌发表许多重复评论并且大部分重复评论包含URL链接的用户。

实验结果

首先展示使用基于项的协同过滤评估用户偏好的5种相似度方法的最小估计误差,发现欧拉距离方法对于MAE和RMSE给出了最好的性能。使用分布式计算显著减少了用户偏好预测的运行时间。
计算情感预测的分类准确性和每个因子(文本情感,用户偏好,同伴影响,用户资料)的贡献。用10折交叉验证运行支持向量机(SVM)。结果表明使用所有四个主要特征性能最好。
对于短文本,如Facebook评论和Twitter微博,用户偏好比同伴影响和用户资料信息获得更高的准确率提升。因为喜好或者评分比评论承载了更多观点信息。然而,对于更长的文本,如亚马逊上的商品评论,同伴影响对情感识别有更大的影响。
未来工作:引入更多的网络数据如朋友关系,地理定位等。

0 0
原创粉丝点击