nutch 学习笔记
来源:互联网 发布:特斯拉电磁塔升级数据 编辑:程序博客网 时间:2024/06/08 08:35
Q:
我有个疑问,抓取进程结束了,为什么有那么多URL没请求
是不是跟我的抓取depth有关?
A:
是不是跟我的抓取depth有关?
A:
crawldb里面有大量的URL,你每一次执行crawl命令,只会抓一部分(topN控制)
每一次抓取,都会发现很多新的outlinks
所以crawldb里面一般来说都会有很多unfetched的URL
每一次抓取,都会发现很多新的outlinks
所以crawldb里面一般来说都会有很多unfetched的URL
Q:
topN后的参数用来指定本次fetch数量?
topN后的参数用来指定本次fetch数量?
A:
Y
Y
Q:
如果不指定topN,下次执行crawl命令时,这1700多个unfetched的URL会被fetch?还是只会fetch其中的一部分(NUTCH有一个默认的topN值?)
如果不指定topN,下次执行crawl命令时,这1700多个unfetched的URL会被fetch?还是只会fetch其中的一部分(NUTCH有一个默认的topN值?)
A:
如果是完全分布式,这topN/map数,则是每个map的抓取上限
自己指定
不指定则FETCH ALL
如果是完全分布式,这topN/map数,则是每个map的抓取上限
自己指定
不指定则FETCH ALL
Q:
也就是这次UNFETCH的URLS在下次crawl时会全部fetch,是不是这样理解的?
也就是这次UNFETCH的URLS在下次crawl时会全部fetch,是不是这样理解的?
A:
是
Q:
Q:
-bin/nutch readdb data/crawldb -dump crawldb_dump -status 2
我只dump状态为2的数据,怎么dump不出来啊,-stats里明明有63个db_fetched(状态为2) 的数据
还是我写法有问题。好像指定status dump都不能导出
我只dump状态为2的数据,怎么dump不出来啊,-stats里明明有63个db_fetched(状态为2) 的数据
还是我写法有问题。好像指定status dump都不能导出
A:
是我写法有问题- -# ,-status 后面的参数不是数字1,23,45,而是对应的状态字符串比如db_redir_temp,db_fetched
是我写法有问题- -# ,-status 后面的参数不是数字1,23,45,而是对应的状态字符串比如db_redir_temp,db_fetched
- NUTCH学习笔记汇总
- nutch 学习笔记
- Nutch学习笔记
- Nutch学习笔记二
- Nutch学习笔记三
- Nutch 学习笔记 2
- Nutch 1.3 学习笔记
- Nutch+Solr学习笔记
- Nutch学习笔记
- Nutch 0.7.2 学习笔记
- Nutch 1.3 学习笔记1
- Nutch 1.3 学习笔记2
- Nutch学习笔记1 ---------Inject
- Nutch 1.3 学习笔记2
- Nutch 1.3 学习笔记2
- Nutch 1.3 学习笔记2
- Nutch 1.3 学习笔记1
- Nutch 1.3 学习笔记 - Inject
- CSS单词及属性
- 专题4-7数组参数和指针参数分析(国嵌C语言视频)
- 可变参数列表
- 10881 - Piotr's Ants 趣味模拟题
- 《学习OpenCV》练习题第四章第二题
- nutch 学习笔记
- 计算机科学中的树
- 获取navigationcontroller栈中的倒数第二个视图控制器
- Uva 151 - Power Crisis
- 开源资料:firework 脚本方面的资料
- 第九天 CSS表单设计
- 开源软件下载地址
- Apple Sample代码摘抄-plist文件加载
- Poj 1708 Game (BFS)