利用Nutch实现分类搜索(二)(加入urlfilter plugin)
来源:互联网 发布:阿里云部署大型应用 编辑:程序博客网 时间:2024/04/29 12:51
其实有了上篇文章的index plugin,Crawl已经可以正确地把网址根据不同的type分类索引,本文加入urlfilter plugin是为了更进一步,把Crawl抓取的网址限定在我们定义的type之类,而不是什么网页都抓取。
在src/plugin/目录下加入urlfilter-type目录,其中的文件结构可以参考urlfilter-regex,并作相应的修改。
加入TypeURLFilter.java文件,目录层次为urlfilter-type/src/java/com/zju/repu/urlfilter/type/TypeURLFilter.java,实现URLFilter接口。
加入build.xml,用到了lib-regex-filter库,所以要加入引用。
加入plugin.xml,注意extention point是"org.apache.nutch.net.URLFilter",是urlfilter的公共的接口。
另外还需要把这个urlfilter-type加入编译系统,修改src/plugin/build.xml,添加如下编译入口:
为了在让urlfilter-type能够读取到filter文件,还需要在nutch-site.xml中加入如下的配置:
至此,Crawl能够根据规则文件的设定,把网页抓取限定于定义的规则之内了。
- 利用Nutch实现分类搜索(二)(加入urlfilter plugin)
- 利用Nutch实现分类搜索(一)(加入index plugin)
- 利用Nutch实现分类搜索(三)(加入query plugin)
- 利用Nutch实现分类搜索(一)(加入index plugin)
- nutch分类搜索
- Nutch中搜索时把自定义的字段(filed)加入检索条件
- Nutch在搜索时把自定义的字段(filed)加入检索条件
- nutch 配置crawl-urlfilter.txt,regex-urlfilter.txt和nutch-site.xml
- Nutch二次开发总结(二)
- Nutch二次开发总结(二)
- nutch plugin
- Nutch搜索的servlet实现
- nutch solr系列之(二)nutch命令分析
- nutch系统是如何加载和管理URLFilter插件的
- Nutch数据的组成(二)
- CentOS nutch solr 集成问题 (二 )
- Apache-nutch-1.10 安装笔记(二)
- 模式识别几何分类算法实现(二)
- 歌星大奖赛
- win7任务管理器有趣的事情
- 开始步入Cortex-M3
- 第五日 20110402
- [转] 苹果A5微处理器引发平板电脑处理器向双核迈进
- 利用Nutch实现分类搜索(二)(加入urlfilter plugin)
- 为了做到“you build it, you break it”这句名言所说的那样
- Win32消息处理API---PeekMessage
- LINK : fatal error LNK1104: cannot open file "Debug/test.exe"
- System.getProperty()参数大全
- C语言函数和汇编函数相互调用(转)
- 常用的下载文献的地方
- 设计模式之目录篇
- SHELL 逐行读取文件内容