WebMagic无法输出抓取到的数据和文件

来源:互联网 发布:ceic数据库与wind 编辑:程序博客网 时间:2024/06/05 10:39
开始学习爬虫软件WebMagic,执行GithubRepoPageProcessor时,在控制台输出不了取到的网页数据,用JsonFilePipeline也无法在指定目录输出Json文件。
被这个问题烦了一天,网上也找不到相关的问题,期间试了切换JAVA的版本,改变jar包的顺序,都无果。
中间发现关联源代码工程webmagic-core和webmagic-extension可以,直接导入jar包不行。
自己的Maven工程里原先在pom.xml里只加了webmagic-extension依赖,后来把下面的依赖加上可以输出日志。
<dependency>
   <groupId>us.codecraft</groupId>
   <artifactId>webmagic-core</artifactId>
   <version>0.5.3</version>
</dependency>
然后不用maven工程直接导入所有jar包却不行,于是我一个个比较两个工程的jar包,发现jsoup和xsoup的jar包版本不一样,最后尝试了下,锁定了jsoup-1.7.2.jar有问题,
使用jsoup-1.8.3.jar就可以输出日志和文件。webmagic改回0.5.2的jar包照样OK。但是不知道为什么这个是0.5.3版本才升级了Jsoup到1.8.3,以前别人是怎么用的???
0 0
原创粉丝点击