项目中引入webMagic爬取一个网页
来源:互联网 发布:wps多个表格数据汇总 编辑:程序博客网 时间:2024/05/22 03:44
从http://webmagic.io/download.html下载的所有依赖jar包比较多,全部导入已有项目后容易出现冲突,可以只导入下面几个jar包
然后写一个公用的方法供调用
import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.pipeline.ConsolePipeline;import us.codecraft.webmagic.processor.PageProcessor;public class WebMagic implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(100); private static String issue; private static String jczq; @Override public void process(Page page) { page.putField("content",page.getHtml().xpath("//span[@id='bet_period']/text()").toString()); if (page.getResultItems().get("content")==null){ //skip this page page.setSkip(true); } //获得所需的内容 issue = page.getHtml().xpath("//span[@id='bet_period']/text()").toString(); //div[@class='dataBody unAttention']/dl/dt/text() //表示类名为dataBody unAttention的div元素下的dl元素下的dt元素的文本内容 jczq = page.getHtml().xpath("//div[@class='dataBody unAttention']/dl/dt/text()").toString() + page.getHtml().xpath("//div[@class='dataBody unAttention']/dl/dt/span/text()").toString(); } @Override public Site getSite() { return site; } public static String issue(String url) { Spider.create(new WebMagic()).addUrl(url) .addPipeline(new ConsolePipeline()).thread(5).run(); return issue; } public static String jczq(String url) { Spider.create(new WebMagic()).addUrl(url) .addPipeline(new ConsolePipeline()).thread(5).run(); return jczq; }}
在其他类中中通过
String issue = WebMagic.issue("http://caipiao.163.com/order/dlt/");String jczq = WebMagic.jczq("http://caipiao.163.com/order/preBet_jczqspfmixp.html");
可调用爬虫,得到爬取的值
阅读全文
0 0
- 项目中引入webMagic爬取一个网页
- webmagic整理爬取例子
- webmagic爬取渲染网站
- WebMagic爬取网站内容
- webmagic+selenium模拟浏览器启动(动态网页爬取方法之一的第一步)
- 用Java和webmagic爬取图片并下载到本地(动态网页)
- WebMagic爬虫入门教程(二)一个完整的爬取动漫之家的实例
- 爬取一个本地网页
- 使用webmagic 爬取天气网站
- 使用webmagic 爬取中关村评论
- webmagic 爬取示例,新手学习
- webmagic爬取职位信息,新手上路
- webmagic爬取腾讯nba数据
- 关于一个项目中引入子项目的问题
- 在maven项目中如何引入另外一个项目
- 项目二:爬取网页图片
- Python爬取一个网页的图片
- Python爬取一个基本的网页
- 第三周 【项目4
- python 函数 课堂笔记 12.21
- 蓝桥杯 基础练习 矩形面积交 【简单几何】
- 内网穿透神器ngrok,将本地项目映射外网访问
- Oracle的级联查询(CONCATENATION)
- 项目中引入webMagic爬取一个网页
- 阿里云总裁胡晓明:AI泡沫过后,下一站是“产业AI”
- redis队列一些问题
- keil can not access target
- 到底什么是javaEE、什么是JavaSE,我们用Spring等框架用的jdk到底是什么的思考
- 关于MySQL中default怎么用
- python进阶之PIL 简明教程
- 分布式服务跟踪及Spring Cloud的实现
- C# typeof() 和 GetType() 的区别