基于结构分析的句子语义倾向性计算算法(IEEE2013)

来源:互联网 发布:微信诱导付费源码 编辑:程序博客网 时间:2024/05/16 02:02

SentenceSemantic Orientation Calculation Algorithm based on StructureAnalysis

基于结构分析的句子语义倾向性计算算法(IEEE2013)

文章中,文本主题倾向性不仅通过词倾向性,而且通过句子结构来计算,提出了情感提交算法(ES)来计算句子主题倾向性。该方法适用于商品评论。

计算文本倾向性,主题描述和句子结构需要同时考虑。存在两种传统的文本情感倾向性计算方法:基于词倾向性统计方法、基于词极性和句子结构分析。统计方法中词情感距离基于知识库(如HowNet或WordNet)计算。传统的第二种方法实体用于得到文本倾向性。这篇文章基于句子结构,形容词和副词的倾向性可以重构,得到句子情感。它适合评论性文本。

主题挖掘和主题情感分类

情感和修饰词词典构建:采用参考文献中的词情感倾向性算法获得词的极性。情感和修饰词词典包括极性词,否定词和程度词。HowNet用于建立这个词典。

主题情感分类:使用开源LTP(语言技术平台:http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm)获得句子结构,基于句子结构和词极性,提出情感提交(ES)算法来得到主题情感。在LTP结果中有24种相互依赖关系:主谓,动宾,宾补,连接词,量词,“的”结构等等。有多于一个极性词的句子可能有多于一个不同倾向的主题。文本的倾向性应该通过这些多主题句子计算。作者可能通过主语或宾语表达主题。考虑主题位于这两部分。基于LTP这两部分在主谓和动宾关系中,所以基于这些句子关系可以获得主题。在LTP结果中,句子的核心词通常是谓语,谓语的倾向性是主题情感,然而主语和宾语情感通过修饰部分表达。许多句子中,宾补也要考虑。ES算法的核心是根据句子结构提交主题情感,获得句子倾向性,步骤如下(有点繁琐,后面不知道为什么那么做):

(1)找到句子核心词predict。(2)找对应的主语Subj,设置它的极性SubjPolar为0,如果没有主语则极性为null。(3)找Subj的属性词记为SubjAtt,计算属性的极性提交给主语:SubjPolar=ModPolar(SubjAtt)。(4)如果predict是形容词,计算predict修饰词:ModPolar(predict),累加到主题:SubjPolar= SubjPolar+ModPolar(predict)。(5)如果predict是动词,找它的状语关系(副词)。如果结果是极性,标记为predictEmo,累加到主语:SubjPolar= SubjPolar+ModPolar(predictEmo)。(6)计算predit极性ModPolar(predict)和否定修饰词NoMod(predict),如果NoMod(predict)!=0,累加predict的极性到主语:SubjPolar=SubjPolar+ModPolar(predict)。(7)找predict的宾补关系,记为predictCmp,计算修饰词的极性ModPolar(predictCmp)。(8)计算ModPolar(predict),如果不等于0,则:SubjPolar=SubjPolar+ModPolar(predictCmp),如果等于0,修饰词逆转极性,提交到主语:SubjPolar=SubjPolar+(-1/2)^((1-NoMod(predict))/2)*ModPolar(predictCmp)。(9)计算predict的动宾关系,如果没有,它是句子的宾语,记为Obj,极性为ObjPolar,设为0。(10)找宾语的属性关系,记为ObjAtt,极性为ModPolar(ObjAtt)。如果ModPolar(predict)!=0,提交极性到宾语:ObjPolar=ModPolar(ObjAtt),否则逆反极性提交到宾语:ObjPolar=(-1/2)^((1-NoMod(predict))/2)*ModPolar(predictAtt)。(11)如果动宾关系是形容词,记为predictVob,极性ModPolar(predictVob),如果predict的极性非null,并且ModPolar(predict)!=0,提交到主语:SubjPolar=SubjPolar+ModPolar(predictVob),否则SubjPolar=SubjPolar+(-1/2)^((1-NoMod(predict))/2)*ModPolar(predictVob)。

对于没有主语的句子,考虑文本主题为句子主题,但是这仅仅适用于评论性文本。

文章的测试集来自网络,包括购物,食物和商品的4000情感文本。评价指标:召回率、正确率。实验结果表明积极文本的正确率高于消极文本,人们不直接表达消极观点。句子主题与文本主题不一致。未来工作:文本主题倾向性分析,即观点挖掘。

0 0
原创粉丝点击