WebMagic 爬虫框架的入门使用
来源:互联网 发布:股票走势图软件 编辑:程序博客网 时间:2024/06/05 17:30
代码:
package test;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.pipeline.ConsolePipeline;import us.codecraft.webmagic.pipeline.JsonFilePipeline;import us.codecraft.webmagic.processor.PageProcessor;public class GithubRepoPageProcessor implements PageProcessor { // 部分一:抓取网站的相关配置,包括编码、抓取间隔、重试次数等 private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); private static int count =0; //抓取了几条记录 @Override // process是定制爬虫逻辑的核心接口,在这里编写抽取逻辑 public void process(Page page) { // 部分二:定义如何抽取页面信息,并保存下来 page.putField("author", page.getUrl().regex("https://github\\.com/(\\w+)/.*").toString()); //保存抽取结果 page.putField("name", page.getHtml().xpath("//h1[@class='entry-title public']/strong/a/text()").toString()); //按照某个规则对结果进行抽取 if (page.getResultItems().get("name") == null) { //skip this page page.setSkip(true); } page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()")); // 部分三:从页面发现后续的url地址来抓取 page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/[\\w\\-]+/[\\w\\-]+)").all()); count++; // System.out.println("你抓取的页面如下:"+ page); } @Override public Site getSite() { return site; } @SuppressWarnings("deprecation")public static void main(String[] args) { long startTime, endTime; System.out.println("开始爬取..."); startTime = System.currentTimeMillis(); Spider.create(new GithubRepoPageProcessor()) //从"https://github.com/code4craft"开始抓 .addUrl("https://github.com/code4craft") .addPipeline(new ConsolePipeline()) //控制台输出 // 下载下来的文件就会保存在D盘的webmagic目录中 // .addPipeline(new JsonFilePipeline("D:\\webmagic\\")) //开启5个线程取 .thread(5) //启动爬虫 .run(); endTime = System.currentTimeMillis(); System.out.println("爬取结束,耗时约" + ((endTime - startTime) / 1000) + "秒,抓取了"+count+"条记录"); }}
截图:
阅读全文
0 0
- WebMagic 爬虫框架的入门使用
- Java爬虫框架WebMagic的使用总结
- Java爬虫框架WebMagic的使用总结
- Java爬虫框架WebMagic的使用总结
- java 爬虫 WebMagic-使用入门
- Java爬虫框架:WebMagic一(入门)
- 大数据采集:爬虫框架之WebMagic的基本使用
- 爬虫框架webmagic与spring boot的结合使用
- 使用WebMagic爬虫框架爬取暴走漫画
- 使用WebMagic爬虫框架爬取暴走漫画
- WebMagic 爬虫框架学习
- java 爬虫框架 webmagic
- WebMagic爬虫框架学习
- 使用webmagic搭建一个简单的爬虫
- 使用webmagic搭建一个简单的爬虫
- webmagic爬虫使用
- WebMagic Java爬虫框架初探
- Webmagic爬虫--①初入门
- Android进阶之路
- 链表,二叉树,哈希表,数组
- java中短路与、逻辑与、短路或、逻辑或
- Flinkspector--Flink单元测试的开源框架
- Linux/Ubuntu下解压命令
- WebMagic 爬虫框架的入门使用
- 微信公众号点击分享生成分享的图片,可以调整二维码,头像,昵称到背景图指定位置
- Git之分支创建策略
- ORA-01119:创建数据库文件***出错,ORA-27040:文件创建错误,无法创建文件;OSD-04002:无法打开文件;O/S-Errer:(OS 123)文件名,目录名,或卷标语法不正确
- docker镜像创建与基本使用
- Apache 占位符工具类
- Josephus问题(模拟)
- HTML5 2017.07.21
- HashMap使用经验(下)