JAVA爬虫Nutch、WebCollector的正则约束

来源：互联网发布：分类信息群发软件编辑：程序博客网时间：2024/04/29 06:29

爬虫爬取时，需要约束爬取的范围。基本所有的爬虫都是通过正则表达式来完成这个约束。

最简单的，正则：

http://www.xinhuanet.com/.*

代表"http://www.xinhuanet.com/"后加任意个任意字符（可以是0个）。

通过这个正则可以约束爬虫的爬取范围,但是这个正则并不是表示爬取新华网所有的网页。新华网并不是只有www.xinhuanet.com这一个域名，还有很多子域名，类似:news.xinhuanet.com

这个时候我们需要定义这样一个正则:

http://([a-z0-9]*\.)*xinhuanet.com/

这样就可以限制爬取新华网所有的网页了。

每种爬虫的正则约束系统都有一些区别，这里拿Nutch、WebCollector两家爬虫的正则系统做对比：

Nutch官网： http://nutch.apache.org/

WebCollector官网: http://crawlscript.github.io/WebCollector/

1.Nutch:

nutch的正则约束是依赖一个配置文件 conf/regex-urlfilter.txt 来实现的。例如：

+^http://www.xinhuanet.com/+^http://news.xinhuanet.com/-^http://blog.xinhuanet.com/

nutch的正则约束原则是：

1）逐行扫描，对每一行进行如下操作：

去掉正则前面的加号或减号，获取正则式。看待爬取网页的url中是否包含当前正则的模式。如果包含，看正则前的符合。如果为+，则当前url无需过滤，返回当前url，如果为-，则当前url需要过滤，返回null。如果待爬取网页url中不包含当前正则的模式，则跳过（继续下一行操作）。

2）如果扫描到文件结尾，都没有返回：

返回null。

有2个地方需要注意：

1）nutch的正则过滤时，采用的匹配函数式Patterm.matcher，而不是Patterm.matches。

Patterm.mather在匹配时，只要找到待爬取网页的url的子串和正则匹配，就通过。

Patterm.matcher要求待爬取网页的url和regex完全匹配。例如:

待爬取网页的网址是 http://www.xinhuanet.com/index.html

正则是^http://([a-z0-9]*\.)*xinhuanet.com

这个正则用Patterm.matcher和网页url可以匹配。因为网页url的字串http://www.xinhuanet.com和正则能匹配。

但是用Patterm.matches就不能匹配。正则需要改成^http://([a-z0-9]*\.)*xinhuanet.com.*才可以和网页的URL匹配。

也就是说nutch的正则其实是和找url中是否有字串符合正则。所以做nutch的正则配置文件时，要在http前加入^符号，如果正则没有加^符号，例如+http://www.xinhuanet.com ,下面网址也是可以匹配的:

http://www.abc.com/index.php?name=http://www.xinhuanet.com

2）nutch正则过滤时，是逐行扫描，一旦扫描到匹配行就返回结果。所以正则式的顺序很重要。例如可以通过下面的配置文件来完成全网爬取（需要过滤图片等文件为不爬取）：

-\.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe)$+.

先扫描第一行，遇到gif、JPG等文件，会匹配正则，由于前面符号是-,所以返回null，url被过滤。

如果当前url不对应gif、JPG等文件，会继续扫描第二行，第二行可以匹配任意字符串。由于前面符号是+，所以返回当前url，当前url被接受。

2.WebCollector:

WebCollector的正则约束是直接通过程序指定的：

BreadthCrawler crawler=new BreadthCrawler();..........crawler.addRegex("+http://www\\.xinhuanet\\.com/.*");crawler.addRegex("-http://www\\.xinhuanet\\.com/special/.*");crawler.addRegex("-http://www\\.xinhuanet\\.com/info/.*");

WebCollector中正则有两种，正例正则，和反例正则。url要被接受，需要符合下面2个条件。

1.至少符合一条正例正则。

2.不能符合任意一条反例正则。

正例正则以+开头，反例正则以-开头（如果前面不加符号，默认是正例正则)。

上面代码中，http://www.xinhuanet.com/auto/index.html就可以被接受。因为它符合一条正例http://www.xinhuanet.com/.* ，不符合任意一条反例正则(http://www.xinhuanet.com/special/.*和http://www.xinhuanet.com/info/.*)。

必须给出至少一条正例正则，才可以进行爬取，如果没有正例正则，不能符合上面的条件一。

WebCollector中正则匹配采用的是Patterm.matches，要求正则与URL完全匹配。如果上面代码中你的正则写成+http://www.xinhuanet.com/，而不是+http://www.xinhuanet.com/.*，那么只有网页http://www.xinhuanet.com/可以被接受，网页http://www.xinhuanet.com/index.html就不能被接收。

下面给出一个例子，爬取新华网的news.xinhuanet.com子域名，过滤掉gif和jpg图像：

BreadthCrawler crawler=new BreadthCrawler();..........crawler.addRegex("+http://news\\.xinhuanet\\.com/.*");crawler.addRegex("-.*gif.*");crawler.addRegex("-.*jpg.*");

0 0