程序博客网 > 特斯拉电磁塔升级数据

nutch 学习笔记

来源：互联网发布：特斯拉电磁塔升级数据编辑：程序博客网时间：2024/06/08 08:35

Q:

我有个疑问，抓取进程结束了，为什么有那么多URL没请求
是不是跟我的抓取depth有关？
A:

crawldb里面有大量的URL，你每一次执行crawl命令，只会抓一部分（topN控制）
每一次抓取，都会发现很多新的outlinks
所以crawldb里面一般来说都会有很多unfetched的URL

Q:
topN后的参数用来指定本次fetch数量?

A:
Y

Q:
如果不指定topN,下次执行crawl命令时，这1700多个unfetched的URL会被fetch?还是只会fetch其中的一部分（NUTCH有一个默认的topN值？）

A:
如果是完全分布式，这topN/map数，则是每个map的抓取上限
自己指定
不指定则FETCH ALL

Q:
也就是这次UNFETCH的URLS在下次crawl时会全部fetch,是不是这样理解的？

A:

是
Q:

-bin/nutch readdb data/crawldb -dump crawldb_dump -status 2
我只dump状态为2的数据，怎么dump不出来啊，-stats里明明有63个db_fetched(状态为2) 的数据
还是我写法有问题。好像指定status dump都不能导出

A:
是我写法有问题- -# ，-status 后面的参数不是数字1,23,45，而是对应的状态字符串比如db_redir_temp,db_fetched

特斯拉电磁塔升级数据

特斯拉电磁塔升级数据

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子第一志愿滑档怎么办自考本科没学位怎么办韩进破产箱子怎么办青岛航空倒闭了怎么办压力罐打水频繁怎么办工厂无人化就业怎么办摇号中签了怎么办 2017高考落榜了怎么办? 修车学徒很笨怎么办挂式空调漏水怎么办汽车方向机漏油怎么办汽车转向机漏油怎么办汽车遮阳板松了怎么办取保一年到期后怎么办股票跌破发行价怎么办 ems快递不更新怎么办网站被禁止访问怎么办军校委培生学历怎么办招工入户后档案怎么办孕妇颈椎病犯了怎么办域名注册成功后怎么办安安阁封了怎么办工地施工有噪音怎么办机械硬盘噪音大怎么办执业医师考过后怎么办不动产发票丢了怎么办卖东西不会算账怎么办顾客说考虑考虑怎么办店铺被投诉了怎么办做销售不会说话怎么办客户买东西嫌贵怎么办小饭店顾客还价怎么办公司公章坏了怎么办股票增发对散户怎么办公司重组后员工怎么办股票停牌资金怎么办上市公司退市后散户股票怎么办煤矿倒闭后职工怎么办山西煤矿倒闭后怎么办上海牌照不要了怎么办皮鞋鞋垫坏了怎么办