将weblech改造成文件爬虫(一)
来源:互联网 发布:怎么看淘宝客下单 编辑:程序博客网 时间:2024/05/16 03:50
这半年多很长时间的工作内容就是读Java源代码,同事的源代码,开源产品的源代码。最近开始利用爬虫获取一些资源,看了几个开源的Java爬虫,发现weblech比较简洁,决定以它为基础进行改造。其实有一个更好的开源产品larbin,是C的,读起来总是很头疼,主要是读惯了Java的,对C源代码的敏感度很低。
1、从配置文件Spider.properties看,weblech只是个半成品,不知基于什么原因,并没有继续更新它。
初步测试过几次,一开始需要对weblech进行如下几个方面修改:
1、不下载图片。
2、爬虫会跳到网站的help里面去,觉得不需要爬这些网页,所以筛选机制要进一步完善。
3、Log需要更多的信息,目前需要需要已下载url列表以及url的深度。
4、对跳转链接进行处理。对于跳转的url,weblech并没有进行处理,对跳转链接不是太了解,暂时不处理,后期再考虑,这里先做备份。
5、主要目的是爬文件,后期网页也不会保存。
- 将weblech改造成文件爬虫(一)
- 将weblech改造成文件爬虫(二)
- 将String保存成文件
- 将String保存成文件
- 爬虫weblech的使用
- (写文件)将字符串保存成文件
- android将字串转换成文件存储
- android将Bitmap转换成文件
- c/vc/c++ 将mysql二进制字段(longblob类型)读出来保存成文件
- 将字节流byte[]转换成成文件
- PasteAsFile-将剪切板中的内容直接粘贴成文件
- [warp portal] [HOWTO] 将python源程序打包成文件
- 将文件或文件夹封装成文件对象
- 将java的byte[]字节流转成文件
- Wireshark抓包保存文件(图片,视频,音频等)----可以将传输的数据直接存成文件
- 将文件流转换成String,然后将转换后的String再转换成文件流
- 如何将文件夹打包成文件,然后将文件格式化成虚拟文件系统,挂载到某个文件夹
- Android,布局(layout)转化成bitmap,再生成文件
- SSIS常用的包—使用Bulk Insert执行任务
- 第三方支付接口,银行接口(附下载),third party bank interface
- java.util.concurrent
- 进程的内核对象句柄表
- how to judge a string is eauql 0
- 将weblech改造成文件爬虫(一)
- 用AOM对象模式实现QTP的远程调用
- perl 时间处理
- 【转】Ubuntu下的c++编程环境构建
- HDU 1466 计算直线的交点数 dfs
- jQuery操作radio、checkbox、select总结
- android发送与接收超长短信
- MainForm
- C# TCP/IP数据包