Aspect Based Sentiment Analysis datasets

来源:互联网 发布:java调用第三方接口 编辑:程序博客网 时间:2024/05/19 16:36
  • Ganu的dataset:

    比较经典的数据集是Ganu et al. (2009).3K的句子包括 aspect categories和sentence polarities.
    (G. Ganu, N. Elhadad, and A. Marian, “Beyond the stars: Improving rating predictions using review text content”. Proceedings of the 12th International Workshop on the Web and Databases, Providence, Rhode Island, 2009.)

    多篇论文里面也有用,但是不知道为什么没有找到。

  • semeval2014年的数据
    对G的数据集进行了修改,其中对aspect terms进行了标注,另外aspect term polarities也进行了标注,同时对aspect category-specific也进行了标注。(注意到之前只是对整个句子进行标注)对G的数据集合也进行了错误纠正。另外加了额外的餐厅评论,以同样的方式标注,成为测试集。
    http://alt.qcri.org/semeval2014/task4/

    XML数据格式如下
    <sentence id="813">
    <text>All the appetizers and salads were fabulous, the steak was mouth watering and the pasta was delicious!!!</text>
    <aspectTerms>
    <aspectTerm term="appetizers" polarity="positive" from="8" to="18"/>
    <aspectTerm term="salads" polarity="positive" from="23" to="29"/>
    <aspectTerm term="steak" polarity="positive" from="49" to="54"/>
    <aspectTerm term="pasta" polarity="positive" from="82" to="87"/>
    </aspectTerms>
    <aspectCategories>
    <aspectCategory category="food" polarity="positive"/>
    </aspectCategories>
    </sentence>

    并不能保证人工标注的结果的准确性。
    The possible values of the polarity field are: “positive”, “negative”, “conflict”, “neutral”. The possible values of the category field are: “food”, “service”, “price”, “ambience”, “anecdotes/miscellaneous”.

  • SemEval-2015
    http://alt.qcri.org/semeval2015/task12/
    这个数据集合感觉就变成了 1. Aspect Category (Entity and Attribute).比如说 {FOOD#QUALITY},Opinion Target Expression (OTE)以及Sentiment Polarity.


- 情感分析
1. Bing Liu的 Sentiment Analysis and Opinion Mining Morgan & Claypool Publishers
2. Bo Pang的 Opinion Mining and Sentiment Analysis

nltk的语义分析的例子
http://www.nltk.org/howto/sentiment.html

0 0
原创粉丝点击