Jobo Bug List
来源:互联网 发布:网络推广培训视频 编辑:程序博客网 时间:2024/05/10 02:39
想不到Jobo的问题还真多,列举如下:
1、缺省Jobo是用单线程跑的,需要自己扩展实现多线程代码;
2、Jobo里面有个todo和visited列表,分别用于存放待抓取和已访问的task。但是,在多线程模式下,todo里面会出现很多重复的task,也就是visited没有起到过滤重复URL的作用。原因是,虽然task的url可能是重复的,但是task对象的hashcode未必重复,所以往往判断失误。解决方法是自己弄个HashSet来保存已访问的url。
3、Jobo对html的dom解析模块,有内存泄露问题,会OutOfMemory,还是自己解析吧。
4、某些情况下,Jobo碰到redirect的链接可能就抓瞎了。什么情况呢?如果网站是需要带端口号访问的,如http://x.x.x.x:8080/...,这时如果链接发生redirecting,恭喜你,它会把8080丢掉,结果就是重定向后的链接无法访问。这个问题需要修改Jobo底层的HttpTool类才行。
- Jobo Bug List
- 如何让Jobo支持中文
- 编程心得(bug list)
- VFP9 SP2 Bug list
- android bug list
- BUG List 随时更新
- iOS:bug list(一)
- The Bug Bounty List
- Merge Sort bug list
- Binary Search bug list
- Caffe bug fixing List
- Android Bug List
- ToLua中list的 bug
- Java list.romve方法bug
- Hibernate中一对多 List的bug
- VC 2008 LIST CONTROL的BUG
- bug list---直接访问string内存
- VC 2008 LIST CONTROL的BUG
- Spring整理12 -- 面对切面(AOP)2 -- 配置文件的方式实现AOP
- 教务系统--DAL层实现
- zoj1622
- 各种字符串hash函数比较
- Spring整理13 -- 面对切面(AOP)3 -- 使用CGLIB实现AOP
- Jobo Bug List
- JS添加删除Table中的行
- javaweb开发的路径问题
- 王勇平生前2,3事
- Linux 时间查看与设置
- Spring整理 -- 自动装配(autowire)
- 类菌体博客园文章原创系列
- Windows下的leveldb
- SAP