Jobo Bug List

来源:互联网 发布:网络推广培训视频 编辑:程序博客网 时间:2024/05/10 02:39

想不到Jobo的问题还真多,列举如下:

1、缺省Jobo是用单线程跑的,需要自己扩展实现多线程代码;

2、Jobo里面有个todo和visited列表,分别用于存放待抓取和已访问的task。但是,在多线程模式下,todo里面会出现很多重复的task,也就是visited没有起到过滤重复URL的作用。原因是,虽然task的url可能是重复的,但是task对象的hashcode未必重复,所以往往判断失误。解决方法是自己弄个HashSet来保存已访问的url。

3、Jobo对html的dom解析模块,有内存泄露问题,会OutOfMemory,还是自己解析吧。

4、某些情况下,Jobo碰到redirect的链接可能就抓瞎了。什么情况呢?如果网站是需要带端口号访问的,如http://x.x.x.x:8080/...,这时如果链接发生redirecting,恭喜你,它会把8080丢掉,结果就是重定向后的链接无法访问。这个问题需要修改Jobo底层的HttpTool类才行。

原创粉丝点击