【2月限时免费】多国语言文本采集数据

来源:互联网 发布:金融刷题软件 编辑:程序博客网 时间:2024/04/20 04:22

文本语料是研发里必不可少的基础数据资源,针对小语种语料稀少的现状,数据堂基于专业爬虫及数据清理技术,从互联网上抓取各种语言的海量文本数据,包括指定网站的定向采集和清理、指定主题的非定向采集和清理。


本数据集摘录了日语、俄语、荷兰语、挪威语的少量文本语料,压缩前有778M大小。存储格式为文本文件,utf-8编码,文件名以网站命名,每篇文章保存为一行,并去掉所有网页标记符。

  

更多内容详见

http://factory.datatang.com/service_4.html




点击下载:【2月限时免费】多国语言文本采集数据
0 0
原创粉丝点击