【2月限时免费】多国语言文本采集数据
来源:互联网 发布:金融刷题软件 编辑:程序博客网 时间:2024/04/20 04:22
文本语料是研发里必不可少的基础数据资源,针对小语种语料稀少的现状,数据堂基于专业爬虫及数据清理技术,从互联网上抓取各种语言的海量文本数据,包括指定网站的定向采集和清理、指定主题的非定向采集和清理。
本数据集摘录了日语、俄语、荷兰语、挪威语的少量文本语料,压缩前有778M大小。存储格式为文本文件,utf-8编码,文件名以网站命名,每篇文章保存为一行,并去掉所有网页标记符。
更多内容详见
http://factory.datatang.com/service_4.html
点击下载:【2月限时免费】多国语言文本采集数据
0 0
- 【2月限时免费】多国语言文本采集数据
- 【10月限时免费】中文事件标注数据
- 【11月限时免费】2000张人脸关键点数据
- 【4月限时免费】车载环境中文手机录音数据
- lua 多国语言文本解决方案
- lua 多国语言文本解决方案
- 开年有大礼!阿里珍贵技术资料限时免费下载(2月20日最新资料)
- 【8月限时免费】5000句微博句法树库
- 【12月限时免费】上海方言手机语音数据库
- 【3月限时免费】50人闽南语手机语音数据库
- monkeyrunner截图限时免费阅读#2:多线程保存
- 【9月限时免费】中国人说英语手机语音数据库(150人)
- 3个免费数据采集工具网站
- ADROID2.2系统多国语言定制
- 多国语言
- 多国语言解决方案
- 多国语言支持
- 多国语言
- Linux下,postgreSQL的查看与重启
- QQ协议分析及其还原(二)
- 浙大PAT 1024题 1024. Palindromic Number
- Crontab 介绍
- ViewPager 禁止左右滑动完美解决
- 【2月限时免费】多国语言文本采集数据
- hadoop+Hbase 模式
- 应用死锁的分析
- USACO 2008 Feb Hotel 预订旅馆
- 无法sdgs
- Java基本开发环境搭建
- Diffie-Hellman密钥交换
- Mac设置共享的Wifi热点
- 【Objective-C】OC中代理(委托)设计模式