webmagic首次demo
来源:互联网 发布:股权投资案例 知乎 编辑:程序博客网 时间:2024/06/15 23:19
package com.tvs.webmgic;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.processor.PageProcessor;public class MyWebmagic implements PageProcessor {// 抓取网站的相关配置,包括:编码、抓取间隔、重试次数等 private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); @Override public Site getSite() { return site; }@Overridepublic void process(Page page) {page.addTargetRequests(page.getHtml().css("div#page").links().all());/*String title = page.getHtml().xpath("//*[@id=\"main\"]/div[1]/div["+i+"]/dl/dd/a//text()").toString();System.out.println(title);*/if(page.getUrl().regex("http://www.bjnews.com.cn/opinion/[?page=\\d{0,}]{0,1}").match()){page.addTargetRequests(page.getHtml().css("div.news").links().all());}if(page.getUrl().regex("http://www.bjnews.com.cn/opinion/2017/\\d{2}/\\d{2}/\\d{6}.html").match()){String author = page.getHtml().xpath("//*[@id=\"author_baidu\"]//text()").toString();System.out.println(author);String title = page.getHtml().xpath("//*[@id=\"main\"]/div[1]/h1//text()").toString();System.out.println(title);}}public static void main(String[] args) {Spider.create(new MyWebmagic()).addUrl("http://www.bjnews.com.cn/opinion/").thread(5).run();}}
阅读全文
0 0
- webmagic首次demo
- 一个简单的webmagic爬虫 demo
- webmagic
- WebMagic
- webmagic
- Anko demo(二) :CustomView 首次尝试
- 学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
- Android ViewPager demo APP首次启动引导页
- 首次
- 首次
- 首次。。
- WebMagic-介绍
- webmagic爬虫
- webmagic入门
- scrapy webmagic
- WebMagic架构
- WebMagic Doc
- webmagic爬虫
- PCL中的点云配准(Registration)ICP算法
- react native 错误unable to load script form assets解决
- leetcode 598. Range Addition II
- spring-boot使用Filter
- SP相关工具类
- webmagic首次demo
- phpstorm 2017激活
- 【HTML5入门】HTML/Jquery中限制textarea大小及输入字符长度
- @Responsebody与@RequestBody
- Tomcat启动过程中找不到JAVA_HOME解决方法
- jmeter 性能分析 (一点点加)
- SD卡相关工具类
- node.js ucloud ufileutil.js
- a标签的target指向iframe实现页面局部刷新