Webmagic爬虫--②爬自己的CSDN博客列表
来源:互联网 发布:登录我的淘宝 编辑:程序博客网 时间:2024/05/08 15:00
1.创建Maven项目,添加依赖
<dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version></dependency><dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.3</version></dependency>
2.PageProcessor代码
package com.xt;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.processor.PageProcessor;/** * Created by XT on 2017/11/24. */public class MyCSND implements PageProcessor { //http://blog.csdn.net/weixin_35852328/article/list/1 public static final String URL_LIST = "http://blog\\.csdn\\.net/weixin_35852328/article/list/\\d{1}"; //http://blog.csdn.net/weixin_35852328/article/details/78144353 public static final String URL_POST = "http://blog\\.csdn\\.net/weixin_35852328/article/details/\\d{8}"; private static int count = 0; private Site site = Site .me() .setDomain("blog.csdn.net") .setRetryTimes(3).setSleepTime(100); public void process(Page page) { //列表页 if (page.getUrl().regex(URL_LIST).match()) { page.addTargetRequests(page.getHtml().xpath("//span[@class=link_title]/a/@href").all()); page.addTargetRequests(page.getHtml().links().regex(URL_LIST).all()); //文章页 } else { count++; page.putField("title", page.getHtml().xpath("//span[@class='link_title']/a/text()")); page.putField("view", page.getHtml().xpath("//span[@class='link_view']/text()")); page.putField("date", page.getHtml().xpath("//span[@class='link_postdate']/text()")); } } public Site getSite() { return site; } public static void main(String[] args) { long startTime, endTime; System.out.println("开始爬取..."); startTime = System.currentTimeMillis(); Spider.create(new MyCSND()).addUrl("http://blog.csdn.net/weixin_35852328/article/list/2").thread(5).run(); endTime = System.currentTimeMillis(); System.out.println("爬取结束,耗时约" + ((endTime - startTime) / 1000) + "秒,抓取了" + count + "条记录"); }}
3.看控制台,貌似还可以涨访问量哈哈
阅读全文
0 0
- Webmagic爬虫--②爬自己的CSDN博客列表
- 基于WebMagic的CSDN博客爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- 基于WebMagic写的一个入门级CSDN博客爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- springboot使用webmagic框架来抓取自己的博客信息
- 使用WebMagic爬CSDN上的文章
- WebMagic爬新浪博客
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- webmagic是个神奇的爬虫(二)-- webmagic爬取流程细讲
- Qt程序自动重启的实现
- 回顾春运——灵宝西站派出所第一警务区: 张千
- 深入学习Android——AIDL机制
- java解析PDF文件,并获取到指定数据.Eg
- HBase原理-数据读取流程解析
- Webmagic爬虫--②爬自己的CSDN博客列表
- CentOS(Red Hat内核)MongoDB3.4企业版安装
- qt-udp协议编程
- Textview文字闪烁效果(Runnable和Timer两种实现方法)
- 人工智能的三个层次
- Integer等包装类判断相等
- Android的异步消息处理机制---Handler机制总结
- cow2转raw
- iOS OpenGL ES2.0 开发实例 (转载)