使用WebMagic爬虫框架爬取暴走漫画
来源:互联网 发布:村上春树作品推荐知乎 编辑:程序博客网 时间:2024/06/06 00:16
WebMagic是黄亿华先生开发的一款Java轻量级爬虫框架。我之所以选择WebMagic,因为它非常轻量级,可以学习爬虫的原理,而且用WebMagic非常容易进行功能扩展。也许你会听过另一个爬虫框架,Heritrix。博主一开始也是先入手了Heritrix,但是后来发现Heritrix实在是不够轻量级,因为博主只是想自己做个爬虫玩玩,并且能对爬虫的原理有更深刻的认识,所以,博主后来就开始入手更轻量级的WebMagic。由于博主也是刚接触WebMagic,写博客也只是为了记录我的学习到的知识,文章如有纰漏,敬请指正。
一、首先我们看一下我们要 爬取的网页,这个demo中,我打算爬取暴走漫画的中的笑话,内容包括作者名称(author),笑话内容(xontent),上传日期(time)
二、定义一个实体类封装爬取内容
三、WebMagic中最重要的组件就是PageProcessor,它决定了你抓取数据的逻辑。
1)确定要加入待爬取队列的超链接。
我们爬取起始位置为第一页,因此我们要将其他页码的超链接加入待爬队列
我们可以清晰看到页码的超链接存放在class为pager-content的div块中,因此可以如下将超链接加入队列中,css选择器详见css参考手册
2)确定待爬取数据。
文章内容(content)是class为article article-text的div的data-text属性,因此其xpath为,关于xpath详见xpath教程
作者(author)是class为article-author-name的a的字符串部分依此类推四、根据第三步的分析,写自己的PageProcessor
五、编写自己的Pipeline,将爬取到的数据保存到数据库
七、编写测试类
八、查看数据库结果,如图,成功地将网页上的数据保存到了数据库中
这只是一个简单的WebMagic爬虫的实例,但是还是可以学到很多东西。
阅读全文
0 0
- 使用WebMagic爬虫框架爬取暴走漫画
- 使用WebMagic爬虫框架爬取暴走漫画
- Java爬虫框架WebMagic的使用总结
- Java爬虫框架WebMagic的使用总结
- WebMagic 爬虫框架的入门使用
- Java爬虫框架WebMagic的使用总结
- WebMagic 爬虫框架学习
- java 爬虫框架 webmagic
- WebMagic爬虫框架学习
- webmagic爬虫使用
- 大数据采集:爬虫框架之WebMagic的基本使用
- 爬虫框架webmagic与spring boot的结合使用
- WebMagic Java爬虫框架初探
- 使用注解编写WebMagic爬虫
- java 爬虫 WebMagic-使用入门
- 使用WebMagic爬虫框架及javaEE SSH框架将数据保存到数据库(一)
- Java爬虫框架:WebMagic一(入门)
- webmagic爬虫框架源码研究----主线
- Ubuntu 运行文件时,出现 Permission denied
- Oracle DataGuard介绍
- vmware workstation 10的安装
- pat 乙级 1024. 科学计数法 (20)
- 软件打log的一些心得
- 使用WebMagic爬虫框架爬取暴走漫画
- 无限容量数据库架构设计
- codeforces 851 D. Arpa and a list of numbers(前缀和+bruteforce)
- 勒索病毒傀儡进程脱壳
- Java-垃圾收集器
- HDU 5761 Rower Bo
- 前端后端交互的方法
- windows版solr安装
- 不同信道带宽所对应的子载波数的解释