Nutch数据的组成(一)

来源:互联网 发布:机械制图软件下载网站 编辑:程序博客网 时间:2024/06/11 05:10
Nutch由以下数据组成:
1,爬行数据库(crawdb):包含所有nutch已知的url,这个url是否被爬过,如果被爬过,是什么时候。
2,链接数据库(linkdb):这里面包含的信息是每个url已知的链接信息。包括每个链接的锚点文本和源url。
3,一组段。段信息另篇再说。
4,索引库,用的是lucene的。(参见lucene)

1和2组成了webdb。webdb包含4个文件(在物理视图上是文件夹):
-- Pages, sorted by URL (pagesByURL)按URL排序的Page对象数组
-- Pages, sorted by MD5 (pagesByMD5)按MD5排序的Page对象数组
-- Links, sorted by URL(linksByURL)按URL排序的Link对象数组
-- Links, sorted by MD5(linksByMD5)按MD5排序的Link对象数组
 
原创粉丝点击