将weblech改造成文件爬虫(一)

来源:互联网 发布:怎么看淘宝客下单 编辑:程序博客网 时间:2024/05/16 03:50

 

这半年多很长时间的工作内容就是读Java源代码,同事的源代码,开源产品的源代码。最近开始利用爬虫获取一些资源,看了几个开源的Java爬虫,发现weblech比较简洁,决定以它为基础进行改造。其实有一个更好的开源产品larbin,是C的,读起来总是很头疼,主要是读惯了Java的,对C源代码的敏感度很低。


 

1、从配置文件Spider.properties看,weblech只是个半成品,不知基于什么原因,并没有继续更新它。

 

 

 

初步测试过几次,一开始需要对weblech进行如下几个方面修改:

1、不下载图片。

2、爬虫会跳到网站的help里面去,觉得不需要爬这些网页,所以筛选机制要进一步完善。

3、Log需要更多的信息,目前需要需要已下载url列表以及url的深度。

4、对跳转链接进行处理。对于跳转的urlweblech并没有进行处理,对跳转链接不是太了解,暂时不处理,后期再考虑,这里先做备份。

5、主要目的是爬文件,后期网页也不会保存。

 

原创粉丝点击