将weblech改造成文件爬虫(二)

来源:互联网 发布:阿里云 geotrust 编辑:程序博客网 时间:2024/05/22 17:27

weblech的log并没有做好统一管理,有点混乱,有不少于两个Logger,所以虽然它是使用了Log4J包,但是却没有办法做日志的统一管理。即使设置日志的级别为INFO,在log文件里面还是有DEBUG级别的日志。

 

最近的自我管理很混乱,希望小组调整尽快开始,尽快结束。

讲回weblech,发现自己好像没什么耐心了,weblech的日志管理有点不如人意,加上对源代码深入程度不够,问题很不好定位,日志里面也没找到有效的信息。

抱着山寨为本的想法,决定还是模仿weblech一些可以借鉴的地方,直接自己建一个分支项目。自己处理log跟逻辑上的问题,URLGetter跟HTMLParser暂时做直接的拷贝。分支项目建立起来之后再对HTMLParser进行优化,现有的逻辑跟效率都难以满足需求。