nutch 学习笔记

来源:互联网 发布:特斯拉电磁塔升级数据 编辑:程序博客网 时间:2024/06/08 08:35
Q:
我有个疑问,抓取进程结束了,为什么有那么多URL没请求
是不是跟我的抓取depth有关?
A:
crawldb里面有大量的URL,你每一次执行crawl命令,只会抓一部分(topN控制)
每一次抓取,都会发现很多新的outlinks
所以crawldb里面一般来说都会有很多unfetched的URL
Q:
topN后的参数用来指定本次fetch数量?
A:
Y
Q:
如果不指定topN,下次执行crawl命令时,这1700多个unfetched的URL会被fetch?还是只会fetch其中的一部分(NUTCH有一个默认的topN值?)
A:
如果是完全分布式,这topN/map数,则是每个map的抓取上限
自己指定
不指定则FETCH ALL
Q:
也就是这次UNFETCH的URLS在下次crawl时会全部fetch,是不是这样理解的?
A:

Q:
 -bin/nutch readdb data/crawldb -dump crawldb_dump -status 2
我只dump状态为2的数据,怎么dump不出来啊,-stats里明明有63个db_fetched(状态为2) 的数据
还是我写法有问题。好像指定status dump都不能导出
A:
是我写法有问题- -# ,-status 后面的参数不是数字1,23,45,而是对应的状态字符串比如db_redir_temp,db_fetched
原创粉丝点击