nutch爬虫 解析后获得的url数量有限制
来源:互联网 发布:知乎三国志11 编辑:程序博客网 时间:2024/04/30 17:17
Nutch爬虫将网页爬下来后,分析url的时候确实是会把所有的url给解析出来。但是,如果仔细观察的话,nutch爬虫并不会把所有的解析出来的url传到过滤器里。
查看源码以后发现,nutch爬虫有一个环节里会把很多url给忽略掉。Org.apache.nutch.parse包里的ParseOutputFormat这个类里的getRecordWriter方法里有一个变量叫maxOutlinksPerPage,这个变量就是这一现象的罪魁祸首。原来,nutch爬虫用这个变量规定,解析出来的url当中只有前面maxOutlinksPerPage个url会传到过滤器,并且,存储到下载列表,而这个变量的默认值就是100。所以,没有修改这个变量,nutch爬虫会默认只将前面100个url发送到过滤器,其余的都给无视掉了。
为了修改这个变量的值,我们需要修改crawl-tool.xml这个文件。顺便说下,这个文件是配置爬虫的最主要文件,基本上很多东西可以在这个文件配置。在这个文件加上如下内容:
<property>
<name>db.max.outlinks.per.page</name>
<value>1000</value>
</property>
这样,爬虫会将解析到的url当中前面1000个url传到过滤器。
- nutch爬虫 解析后获得的url数量有限制
- 有物品数量限制的背包问题
- 获得Redirect后的url
- nutch如何才能抓取到动态的url,配置文件解析
- 获得url地址?后的参数
- 解析URL,获得相应参数的值
- 谈谈误解------为什么select支持的fd数量有限制,而poll/epoll等支持的fd数量没有限制?
- 配置Nutch模拟浏览器以绕过反爬虫限制
- URL长度有限制吗?
- 爬虫nutch
- 怎样处理python爬虫中有中文的url
- 限制CheckBoxList选中的数量
- poj 1787 求达到总钱数的选硬币的最大数量(硬币有个数限制)
- nutch url
- 解决CB中TOpenDialog, TOpenPictureDialog打开文件数量有限制的问题
- Nutch的URL选择策略 OPIC IN NUTCH
- Nutch的URL选择策略 OPIC IN NUTCH
- JAVA爬虫Nutch、WebCollector的正则约束
- Math取整方法
- 含有string成员的结构体变量,为什么不能初始化?
- android 支持的资源类型及其存放的目录
- iis 程序池设置和防止程序池假死
- 看哪个银行缩写最强
- nutch爬虫 解析后获得的url数量有限制
- libevent源码深度剖析
- opencv 操作XML,读写数组
- sql中的exec()使用
- TSI
- ARM开发步骤(来自www.myembed.com)
- 采用OPENCV,从一幅图像中提取部分区域,并保存为新图像。
- 一周总结
- J2EE 开发平台的软件测试技术