利用Nutch实现分类搜索(二)(加入urlfilter plugin)

来源:互联网 发布:阿里云部署大型应用 编辑:程序博客网 时间:2024/04/29 12:51

其实有了上篇文章的index plugin,Crawl已经可以正确地把网址根据不同的type分类索引,本文加入urlfilter plugin是为了更进一步,把Crawl抓取的网址限定在我们定义的type之类,而不是什么网页都抓取。

在src/plugin/目录下加入urlfilter-type目录,其中的文件结构可以参考urlfilter-regex,并作相应的修改。

加入TypeURLFilter.java文件,目录层次为urlfilter-type/src/java/com/zju/repu/urlfilter/type/TypeURLFilter.java,实现URLFilter接口。

 

 

加入build.xml,用到了lib-regex-filter库,所以要加入引用。

 

加入plugin.xml,注意extention point是"org.apache.nutch.net.URLFilter",是urlfilter的公共的接口。

 

 

另外还需要把这个urlfilter-type加入编译系统,修改src/plugin/build.xml,添加如下编译入口:

为了在让urlfilter-type能够读取到filter文件,还需要在nutch-site.xml中加入如下的配置:

 

至此,Crawl能够根据规则文件的设定,把网页抓取限定于定义的规则之内了。

 

 

 

原创粉丝点击