Nutch数据的组成(一)
来源:互联网 发布:机械制图软件下载网站 编辑:程序博客网 时间:2024/06/11 05:10
Nutch由以下数据组成:
1,爬行数据库(crawdb):包含所有nutch已知的url,这个url是否被爬过,如果被爬过,是什么时候。
2,链接数据库(linkdb):这里面包含的信息是每个url已知的链接信息。包括每个链接的锚点文本和源url。
3,一组段。段信息另篇再说。
4,索引库,用的是lucene的。(参见lucene)
1和2组成了webdb。webdb包含4个文件(在物理视图上是文件夹):
-- Pages, sorted by URL (pagesByURL)按URL排序的Page对象数组
-- Pages, sorted by MD5 (pagesByMD5)按MD5排序的Page对象数组
-- Links, sorted by URL(linksByURL)按URL排序的Link对象数组
-- Links, sorted by MD5(linksByMD5)按MD5排序的Link对象数组
1,爬行数据库(crawdb):包含所有nutch已知的url,这个url是否被爬过,如果被爬过,是什么时候。
2,链接数据库(linkdb):这里面包含的信息是每个url已知的链接信息。包括每个链接的锚点文本和源url。
3,一组段。段信息另篇再说。
4,索引库,用的是lucene的。(参见lucene)
1和2组成了webdb。webdb包含4个文件(在物理视图上是文件夹):
-- Pages, sorted by URL (pagesByURL)按URL排序的Page对象数组
-- Pages, sorted by MD5 (pagesByMD5)按MD5排序的Page对象数组
-- Links, sorted by URL(linksByURL)按URL排序的Link对象数组
-- Links, sorted by MD5(linksByMD5)按MD5排序的Link对象数组
- Nutch数据的组成(一)
- Nutch数据的组成
- Nutch数据的组成(二)
- Nutch数据组成(2)
- OSM 初识(一)OSM数据集的组成
- Nutch总结(一)
- 计算机的组成学习(一)
- 电脑的系统组成(一)
- Nutch二次开发总结(一)
- Nutch二次开发总结(一)
- Nutch学习笔记(一)
- Nutch的配置(使用MySQL作为数据存储)
- Nutch 笔记(一):Nutch 快速上手指南(收藏)
- For 师傅 , nutch 爬csdn的数据
- nutch抓取数据后生成的文件格式
- nutch抓取数据后生成的文件格式
- 读取nutch爬取的数据内容
- Nutch抓取数据内容的详解
- dbunit介绍及使用
- 如何制定有效的配置管理流程
- 无词主管
- 胡编乱侃-2006/07/01
- 祝你工作开心
- Nutch数据的组成(一)
- 英语培训日记20060705
- 分布式计算的基本原理
- 《高效能人士的7个习惯》
- Nutch数据的组成(二)
- 搜索引擎Nutch 0.7.2 试用笔记
- Crawl the Nutch -- Map Reduce
- 如何取消退定垃圾短信
- Crawl The Nutch -- 起步 getting started