基于WebMagic的CSDN博客爬虫

来源:互联网 发布:mac版office彻底删除 编辑:程序博客网 时间:2024/04/27 14:06

            博客原文请访问:http://zhuqiuhui.space/Blogs/2017/03/webmagic-csdn-crawler.html

       刚入职没有多久,开发任务不是太重,很多功能的开发不能全部参与,闲暇之余,mentor给了一个小的开发任务“把美周内部共享的电子书全部爬取下来”,其实刚接到这个任务不知道怎么入手,便查了相关的爬虫工具,如nutch、Heritrix、crawler4j、WebMagic等等。其中WebMagic是国人黄亿华先生的良心大作,WebMagic是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫,这里给出了两个例子,一个是爬取CSDN博客信息,一个是爬虫电子书。

一、基本jar包

  本文用到的是pom文件,自动导入jar包,可参考pom包,如果不使用pom.xml构建,可导入相应的jar包就可以了,参见不使用pom构建。

二、CSDN爬取博客信息示例

  本例测试了zhuqiuhui的专栏下博客title信息的爬取例子,代码参见Github代码。

三、pdf电子书爬取示例

  本例测试了爬取电子书的测试例子,相关代码用到了cookie(写爬虫时遇到登录情况必须要使用到cookie),代码参见Github代码。

博客原文请访问:http://zhuqiuhui.space/Blogs/2017/03/webmagic-csdn-crawler.html

0 0
原创粉丝点击