短文本(微博)情感分析

来源:互联网 发布:mp5 淘宝 编辑:程序博客网 时间:2024/05/07 19:32
(1)长度:微博的长度限制在140个字符,相比于传统的评论,长度相差很大,根据收集到的语料统计,平均长度为40个字符;正是因为长度有限制,所以微博中网民的观点更容易理解。

(2)数据易获取性:数据获取相对更加容易,当前大部分微博都提供API,可以很方便地获取大量的数据。

(3)特有的语言风格:微博信息的来源是多样的,网民可以通过手机、客户端、插件多种形式发布信息,所以相比于传统的博客以及产品评论来说,微博的语言更多地会出现一些新兴的词语,或者是错误的拼写、俚语、缩写

(4)信息多样性:微博中的信息来自不同领域,网民可以针对产品发表评论,也可以针对当前热点事件发表评论,所以从微博中可以获取不同领域的信息。当前大部分微博都提供关键词搜索功能,可以根据相关领域关键词搜索相关的信息。

(5)实时性:发布微博的渠道多种多样,网民随时随地都可以将自己的观点发布到微博,所以微博的实时性相比于传统的评论更加及时,这对于那些对时间要求更高的应用无疑是一个更加合适的信息来源。

 从上面分析的特点来看,将微博作为评论来源进行情感分类的研究是十分有意义的。目前,国内外相关的研究相对较少,国外一些学者对twitter进行了情感分类的相关研究;针对中文微博的研究当前十分缺乏


中文情感分析的有效资源太少。
利用双语资源,但是翻译后的语义有可能发生变化。



评论太多:If he/she only reads a few reviews, he/she only gets a biased view
我们要考虑评价对象和评价词。

本系统收集了 18 个常用转折连词,分别为{虽然,但是,但,可是,只是,不过,然而,而,则,却,倒,就是,至于,致,不料,岂料,所以,因此}

常用否定词表:
不  非  无  未  勿  莫  休  免  请勿  切莫  不用  甭  无须  并非  毫不
毫无  决不  绝不  永不  不要  不够  没  没有  未曾  未尝  无  不曾
从不  从未  从未有过  尚未  并未  尚无  从来不  从没  绝非  远非

聊天、留言、短信、转发微博,我们最喜欢用到的已经渐渐不是“呵呵”、“哦”了,而是一个个简单方便、又生动可爱的表情符号。近日下午《新周刊》官 方微博发布了一条数据统计:微博和QQ表情符号使用率前十名是:龇牙、偷笑、发呆、抠鼻、微笑、流泪、撇嘴、流汗、亲亲、坏笑;新浪微博表情符号热议度前 十名是:哈哈、心、泪、给力、嘻嘻、爱你、偷笑、礼物、花心、鼓掌。看到的网友无不点赞,不过也有网友表示“备选项太少”,于是网友纷纷开始要求“定 做”:快做一个“人艰不拆”好吗!


国外已经有相关微博情感检索网站:
In fact, there are already many web sites built on the Internet  providing  a Twitter  sentiment  search  service,  such  as  Tweetfeel,  Twendz,  and  Twitter Sentiment
1 、http://en.wikipedia.org/wiki/Twitter
2、http://www.tweetfeel.com/
3、http://twendz.waggeneredstrom.com/
4、http://twittersentiment.appspot.com/

电子产品、汽车、电影、评论、社会事件、政治。

0 0