自然语言处理常用数据集
来源:互联网 发布:淘宝低价销售的危害 编辑:程序博客网 时间:2024/05/21 19:24
Treebanks and annotated corpus useful for training POS tagger, parser etc
- Penn Treebank http://www.cis.upenn.edu/~treebank/home.html
- WSJ Corpus https://catalog.ldc.upenn.edu/LDC2000T43
- NEGRA German corpus http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/
- Tiger corpus http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/
- alpino Treebank http://odur.let.rug.nl/~vannoord/trees/
- Bultreebank http://www.bultreebank.org/
- Turin University Treebank http://www.di.unito.it/~tutreeb/
- prague dependency Treebank http://ufal.mff.cuni.cz/pdt2.0/
Semantic relation annotated corpus
- propbank
- Nombank http://nlp.cs.nyu.edu/meyers/NomBank.html
- framenet http://framenet.icsi.berkeley.edu/
- salsa http://www.coli.uni-saarland.de/projects/salsa/page.php?id=index
Text classification corpus
- Reuters dataset http://www.daviddlewis.com/resources/testcollections/reuters21578/
- news group datasets http://people.csail.mit.edu/jrennie/20Newsgroups/
Parallel corpus used in machine translation
- EMILE http://www.lancs.ac.uk/fass/projects/corpus/emille/
Text summarization
- DUC-2001, 2002, 2003, 2004, 2005, 2006, 2007 http://www-nlpir.nist.gov/projects/duc/data.html
- TAC-2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015 http://tac.nist.gov/data/
- Gigawords https://catalog.ldc.upenn.edu/LDC2012T21
- LCSTS http://icrc.hitsz.edu.cn/Article/show/139.html
Machine Reading
- CNN http://datasets.maluuba.com/NewsQA
- Microsoft https://arxiv.org/abs/1611.09268
- Microsoft Marco http://www.msmarco.org/
- SQuAD https://www.aclweb.org/anthology/D16-1264
Others
- TREC
- SemEval http://alt.qcri.org/semeval2017/index.php?id=tasks
- Microsoft COCO: http://mscoco.org/
0 0
- 自然语言处理常用数据集
- 自然语言处理常用算法
- 自然语言处理——数据集
- 自然语言处理相关数据集和语料
- 数据挖掘、自然语言处理
- 数据挖掘、检索、自然语言处理
- python自然语言处理-数据概括
- 自然语言处理 怎么获得数据集 中文语料集?
- 斯坦福大学自然语言处理的QA数据集SQuAD
- 自然语言处理数据集免费资源开放(附学习资料)
- python自然语言处理nltk库常用接口
- 自然语言处理人名识别常用词典
- 常用的自然语言处理分词工具
- 笔记-常用自然语言处理工具包一览
- 数据挖掘、机器学习、自然语言处理
- 旅游评论数据中的自然语言处理
- 自然语言处理:盘点一下数据平滑算法
- 数据挖掘,机器学习,自然语言处理,人工智能??????
- Welcome to the World of Ingress
- 证明的思路 —— 数形结合
- 同一个项目在me10上完美运行,在me14上却出抛异常
- c预处理命令
- Sealed Class Hierarchies
- 自然语言处理常用数据集
- 关于select2的使用——解决点击瞬间下拉框消失的问题
- 从输入URL到页面加载发生了什么
- 使用python爬虫爬取百度手机助手网站中app的数据
- Neural Networks and Deep Learning CH1
- Android中引用资源的方法总结
- 对极几何基本概念
- codeforces 373div1 Sasha and Array 矩阵+线段树
- 计算机网络概述