文本倾向性分析综述
来源:互联网 发布:软件设计师培训视频 编辑:程序博客网 时间:2024/04/27 23:07
最近看了两篇关于文本倾向性分析的硕士学位论文(金晓鸥 (2008). 互联网舆情信息获取与分析研究. 上海, 上海交通大学.;肖伟 (2007). 基于语义的BLOG社区文本倾向性分析. 上海, 上海交通大学.),总结了一下:
1. 文本倾向性分析的定义和主要任务
Peter等人指出,文本倾向性分析(SentimentClassification)就是对用户对某个事物(如产品)的看法或评论(在BLOG社区中是以blogentry的形式出现)文本的挖掘,从而得到该看法或评论是属于对该事物的积极或消极意见。所以,文本倾向性分析(SentimentClassification)正是解决上述问题的关键技术。
Tetsuya Nasukawa等指出:文本倾向性分析中的主要任务有以下三个:(1)找出文档中能够体现情感的词或短语;(2)判断所找出的词或短语的倾向性极性以及强度;(3)找出所抽取的词或短语与主题的关系。
2.文本倾向性分析的主要方法
主要有基于语义的以及基于机器学习的文本倾向性研究两种。
1.基于语义的文本倾向性研究方法:
a 先对待分析文本中的形容词或能够体现主观色彩的短语进行抽取,然后对抽取出来的形容词或短语逐一进行倾向性判断并赋予一个倾向值,最后将上述所有倾向值累加起来得到文章的总体文本倾向性。
b 预先建立一个倾向性语义模式库,有时还会附带一个倾向性字典。然后将待估文档参照语义模式库做模式匹配,最后累加所有匹配模式对应的倾向性值从而得到整个文档的倾向性。
有的是基于词和短语模式,有的是基于语义模式库来分析。
2.基于机器学习的传统文本分类技术
先通过人工标注一些文档的倾向性,并将这些文档作为训练集,再通过机器学习的方法构造一个褒贬两类分类器。最后使用构造好的褒贬两类分类器对待估文档进行分类,即识别出该文档的倾向性。常用SVM(支持向量机)。
发现不管是那种方法,已经有挺多的实现方式,如果想要有创新的话,需要改进现有的这些方法。可惜的是,自己还不具备这样的能力。这样写下去,也许这是个挺有意义的论题,可是能不能做出什么成果来就能值得怀疑了。
上次耿老让我去找trec blog track的语料库的信息,发现要£400,好昂贵啊。然后找了个中文的语料,是北大弄的,网址是http://www.cwirf.org/。可惜样例下下来了不会用。晕死。。。。唉,觉得还是不要写这方面的好,无论如何是写不出来什么好的呢。烦啊。。。。
- 文本倾向性分析综述
- 文本倾向性综述
- 网页文本倾向性分析
- 聚类、文本分类、倾向性分析
- 基于LingPipe的文本倾向性分析--LingPipe学习笔记
- [lingpipe学习笔记]基于LingPipe的文本倾向性分析
- [lingpipe学习笔记]基于LingPipe的文本倾向性分析
- 利用mmSeg4j分词实现网页文本倾向性分析
- 基于LingPipe的文本倾向性分析–LingPipe学习笔记
- 评估文本评论情感分析的机器学习和非监督语义倾向性方法(IEEE2012)
- 中文情感倾向性分析(IEEE2010)
- 基于改进依赖分析的微博情感倾向性分析
- 文本检索综述
- 文本分类综述
- 文本分类算法综述
- 文本分类综述
- 文本自动校对技术研究综述
- 【读书笔记】-- 文本可视化研究综述
- LINQ技术学习经验
- OGNL
- 恋爱必备:幸福的可以晕倒的20句情话
- Linux下网络攻击DDos的实现代码,tcp数据欺骗的实现
- “拒绝了对对象数据库的 EXECUTE 权限”之解决
- 文本倾向性分析综述
- 浅析ASP.NET生成随机密码
- 三个div同行排列
- Store中数据中如果存在对象,对象中数据的获取
- ArrayList
- Java Applet与Java Application的区别
- socket通信 端口状态的解释
- Struts2标签实现for循环【select】
- 屏蔽 Google AdSense 广告