基于WebMagic的CSDN博客爬虫
来源:互联网 发布:mac版office彻底删除 编辑:程序博客网 时间:2024/04/27 14:06
博客原文请访问:http://zhuqiuhui.space/Blogs/2017/03/webmagic-csdn-crawler.html
刚入职没有多久,开发任务不是太重,很多功能的开发不能全部参与,闲暇之余,mentor给了一个小的开发任务“把美周内部共享的电子书全部爬取下来”,其实刚接到这个任务不知道怎么入手,便查了相关的爬虫工具,如nutch、Heritrix、crawler4j、WebMagic等等。其中WebMagic是国人黄亿华先生的良心大作,WebMagic是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫,这里给出了两个例子,一个是爬取CSDN博客信息,一个是爬虫电子书。
一、基本jar包
本文用到的是pom文件,自动导入jar包,可参考pom包,如果不使用pom.xml构建,可导入相应的jar包就可以了,参见不使用pom构建。
二、CSDN爬取博客信息示例
本例测试了zhuqiuhui的专栏下博客title信息的爬取例子,代码参见Github代码。
三、pdf电子书爬取示例
本例测试了爬取电子书的测试例子,相关代码用到了cookie(写爬虫时遇到登录情况必须要使用到cookie),代码参见Github代码。
博客原文请访问:http://zhuqiuhui.space/Blogs/2017/03/webmagic-csdn-crawler.html
0 0
- 基于WebMagic的CSDN博客爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- 基于WebMagic写的一个入门级CSDN博客爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- Webmagic爬虫--②爬自己的CSDN博客列表
- 基于WebMagic的java爬虫实战
- 基于WebMagic爬虫
- 基于webmagic的爬虫小应用--爬取知乎用户信息
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic(二)----抓取CSDN博客、并打印
- L2-005. 集合相似度
- C#并行编程-相关概念
- JavaWeb--深入Servlet与JSP(运行原理)
- mysql 杂记(一)
- Excel制作甘特图
- 基于WebMagic的CSDN博客爬虫
- C#并行编程-Parallel
- C语言结构体
- Java基础篇之----数据类型
- GalaxyOJ-468 (LCA)
- L2-008. 最长对称子串
- 【OpenGL】nehe教程第四、五课学习笔记
- Linux中关机与重启命令
- 国足赢了