中文情感分析语料库
来源:互联网 发布:防沉迷解除软件最新版 编辑:程序博客网 时间:2024/04/30 02:42
中文情感分析语料库
http://blog.leanote.com/post/doubleseven/%E4%B8%AD%E6%96%87%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%E8%AF%AD%E6%96%99%E5%BA%93
中文情感分析的语料库非常少,这五个中文语料库是我在网上的搜集的。
数据集1:情感挖掘的酒店评论语料
URL:http://www.nlpir.org/?action-viewnews-itemid-77
说明:谭松波收集整理了一个较大规模的酒店评论语料。语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成4个子集: 1.ChnSentiCorp-Htl-ba-2000: 平衡语料,正负类各1000篇。
- ChnSentiCorp-Htl-ba-4000: 平衡语料,正负类各2000篇。
- ChnSentiCorp-Htl-ba-6000: 平衡语料,正负类各3000篇。
4.ChnSentiCorp-Htl-unba-10000: 非平衡语料,正类为7000篇。
数据集2:2012年CCF自然语言处理与中文计算会议:中文微博情感分析测评数据
URL:http://tcci.ccf.org.cn/conference/2012/pages/page10_dl.html
说明:数据来自腾讯微博 1。评测数据全集包括 20 个话题,每个话题采集大约 1000
条微博,共约 20000 条微博。数据采用xml格式,已经预先切分好句子。每条句子的所有标注信息都包含在<sentence>元素的属性中。其中opinionated表示是否观点句,polarity表示句子情感倾向。
数据集3:中文情感挖掘语料-ChnSentiCorp
URL :http://www.datatang.com/data/14614
说明:语料库涉及3个领域:酒店、电脑(笔记本)与书籍
去重后语料:
1.ChnSentiCorp-Htl-del-4000: 平衡语料,正负类各2000篇。
2.ChnSentiCorp-NB-del-4000: 平衡语料,正负类各2000篇。
3.ChnSentiCorp-BK-del-4000: 平衡语料,正负类各2000篇。
数据集4:豆瓣网影评情感测试语料
URL:http://www.datatang.com/data/13539
说明:影评来自豆瓣网对电影《ICE AGE3》的评论,评分标准均按照5 stars评分在网页中有标注。语料至527页。每页20条短评。 共计11323条评论。数据格式:HTML
数据集5:SemEval-2016
URL:http://alt.qcri.org/semeval2016/task5/index.php?id=data-and-tools
说明:移动手机,数码产品评论数据,分为训练数据和测试数据
训练数据
测试数据
评论文档数
句子级数
评论文档数
句子级数
移动手机
140
6330
140
5784
数码产品
60
3191
60
2556
- 中文情感分析语料库
- 中文情感分析语料库
- 中文情感分析语料库
- 中文情感分析
- 情感分类语料库
- 中文情感分析资源汇总
- 自然语言之情感分析(中文)
- 中文语料库
- 中文语料库
- 中文语料库
- 中文情感倾向性分析(IEEE2010)
- R语言中文情感分析包:cnSentimentR
- 用WordNet实现中文情感分析
- 用WordNet实现中文情感分析
- 中文语料库整理
- 中文语料库and分词
- 情感分析系列之《利用BRAT进行中文情感分析语料标注》
- 情感分析
- jdbc连接mysql数据库
- uploadify批量上传图片
- [LeetCode] Rotate Array
- markdown的基础语法
- 关于字符串结束符'\0'、字符串定义方法
- 中文情感分析语料库
- 2.虚拟机对象
- js判断对象是否为空对象
- Android
- RTP协议全解析(H264码流和PS流)
- 根据cookieName返回该cookie
- iOS 文件拷贝
- Linux定时重启任务示例
- 报错