crawler4j 介绍
来源:互联网 发布:淘宝买家诈骗卖家货物 编辑:程序博客网 时间:2024/06/07 15:27
可以参照crawler4j例子学习使用它。
crawler4j的使用主要分为两个步骤:
- 实现一个继承自WebCrawler的爬虫类;
- 通过CrawlController调用实现的爬虫类。
WebCrawler是一个抽象类,继承它必须实现两个方法:shouldVisit和visit。其中:
- shouldVisit是判断当前的URL是否已经应该被爬取(访问); 可以设置匹配,选择哪些网站需要爬取,哪些不需要。
- visit则是爬取该URL所指向的页面的数据,其传入的参数即是对该web页面全部数据的封装对象Page。这个函数是对那些需要爬取的网站进行分析,获取需要爬取的内容。
1、shouldVisit
在继承自WebCrawler的类中定义匹配模式,选择哪些网站需要爬取,哪些不需要。
private static final Pattern filters = Pattern.compile(".*(\\.(css|js|mid|mp2|mp3|mp4|wav|avi|mov|mpeg|ram|m4v|pdf"
+ "|rm|smil|wmv|swf|wma|zip|rar|gz))$");
// 可以在这里定义匹配模式,也可以直接在 shouldVisit 中用 href.matches("^http://www.yougou.com.*") 匹配。
private static final Pattern urlPattern = Pattern.compile("^http://www.yougou.com.*");
如果匹配则返回 true,否则false
if (urlPattern.matcher(href).matches()) {
return true;
}
2、visit
对shouldVisit返回true的每个网站进行分析,获取需要爬取的内容。
0 0
- crawler4j 介绍
- crawler4j配置
- crawler4j代码解析
- 关于crawler4j 爬虫
- Crawler4j的使用
- Nutch、heritrix、crawler4j优缺点
- crawler4j打包与配置
- 使用crawler4j框架爬爬知乎
- Nutch、heritrix、crawler4j优缺点
- 使用Crawler4j总结
- Crawler4j总结(2)
- crawler4j简单总结
- crawler4j源码解析
- crawler4j爬虫入门
- crawler4j入门(二)
- Crawler4j快速入门实例
- Crawler4j学习笔记-util
- java爬虫--crawler4j
- 浅谈Hive vs. HBase
- 二叉搜索树的后续遍历序列
- 阿里云centos中tomcat安装及开机自启动
- 垂直居中-父元素高度确定的单行文本
- python3 tkinter教程
- crawler4j 介绍
- Jackson介绍(1)-jackson2.x与Jackson1.9的比较
- ArrayList与Vector的区别
- 为jenkins的每个build设置description
- android开发中R.layout.文件找不到
- 无题
- c++实现机制
- 数据库设计模式笔记
- C实现 LeetCode->Palindrome Number