搜狗实验室文本分类语料库
来源:互联网 发布:淘宝店铺全屏代码设置 编辑:程序博客网 时间:2024/05/01 07:35
语料库介绍
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。语料库统计的意义:提供一个较大规模的标准中文文本分类测试平台。
应用案例:中文文本分类,主题跟踪与检测等。
语料库说明
语料库数据包括:
[1] 用于分类的新闻语料,按照SOGOU-T网页语料库格式整理
[2] 分类体系说明
[3] 数据集合统计信息
下载地址
搜狗分类语料库下载地址:http://www.sogou.com/labs/dl/c.html分类编码对照表
C000007 汽车C000008 财经
C000010 IT
C000013 健康
C000014 体育
C000016 旅游
C000020 教育
C000022 招聘
C000023 文化
C000024 军事
0 0
- 搜狗实验室文本分类语料库
- 导入搜狗实验室新闻语料库
- 文本分类中语料库的获取——对搜狗语料库进行想要格式的获取
- Python: 搜狗分类语料库gb2312编码为utf-8
- 文本挖掘—搜狗语料库数据预处理
- 对搜狗提供的中文语料库进行文本分词过程中的java笔记
- 情感分类语料库
- 一些文本语料库
- 界 | Facebook人工智能实验室开源文本分类专用工具fastText
- 华为诺亚实验室中文对话语料库介绍
- KNN对复旦语料库分类
- 2.NLTK之文本语料库
- 文本分析--NLTK语料库选择
- NLP之路-查看获取文本语料库
- 语料库
- 语料库
- 语料库
- 语料库
- 口琴的故事
- mysql文件空间占用真的
- Ubuntu下配置Tomcat教程
- 黑马程序员----网络编程TCP协议聊天
- CPU常见故障及处理方法-奇9计算机基础知识网
- 搜狗实验室文本分类语料库
- [黑马程序员]第十篇:网络编程
- vlookup 的#N/A(4)
- INI文件格式及其读写
- django模板:在子模板使用block引入CSS文件
- oracle中 connect by prior
- ASP.net 网站部署
- 在Cookie被禁用的情况下使用url rewrite机制保持Session
- 计算机科学概论(第11版) 1.3节 问题与练习答案