将weblech改造成文件爬虫（一）

来源：互联网发布：怎么看淘宝客下单编辑：程序博客网时间：2024/05/16 03:50

这半年多很长时间的工作内容就是读Java源代码，同事的源代码，开源产品的源代码。最近开始利用爬虫获取一些资源，看了几个开源的Java爬虫，发现weblech比较简洁，决定以它为基础进行改造。其实有一个更好的开源产品larbin，是C的，读起来总是很头疼，主要是读惯了Java的，对C源代码的敏感度很低。

1、从配置文件Spider.properties看，weblech只是个半成品，不知基于什么原因，并没有继续更新它。

#下载网页的存储文件夹saveRootDirectory = ./sites#邮件列表，将网页出现的邮箱地址记录到mailtoLogFile 下mailtoLogFile = mailto.txt#这三个功能是指定下载或者不下载哪些类型的网页，但是功能并没有实现refreshHTMLs = truerefreshImages = falserefreshOthers = falsehtmlExtensions = htm,html,shtm,shtmlimageExtensions = gif,jpg,jpeg,png,bmp#起始网页startLocation = http://www.baidu.com/#是否深度优先，若为false，则是广度优先，功能未实现depthFirst = false#网页爬虫进入的深度，起始网页的深度为1，起始网页中的链接深度为2，以此递归maxDepth = 4#对网页进行筛选，要求网页地址包含的字符串urlMatch = .#优先处理等级，功能未实现interestingURLs=pollBooth.pl,faqboringURLs=article.pluserAgent = Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)basicAuthUser = myUserbasicAuthPassword = 1234#爬虫线程数spiderThreads = 3#线程获取下一个url地址失败之后的等待时间checkpointInterval = 30000

初步测试过几次，一开始需要对weblech进行如下几个方面修改：

1、不下载图片。

2、爬虫会跳到网站的help里面去，觉得不需要爬这些网页，所以筛选机制要进一步完善。

3、Log需要更多的信息，目前需要需要已下载url列表以及url的深度。

4、对跳转链接进行处理。对于跳转的url，weblech并没有进行处理，对跳转链接不是太了解，暂时不处理，后期再考虑，这里先做备份。

5、主要目的是爬文件，后期网页也不会保存。