Nutch 笔记(二):Craw more urls and Recrawl(收藏)
来源:互联网 发布:js获取textarea的内容 编辑:程序博客网 时间:2024/05/29 18:01
原著未明,仅做收藏,谅解.
一:Recrawl
nutch wiki上有现成的script,我们只需要拿来用用即可
http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03
把它放在nutch-0.8.1/bin/recrawl.sh,执行
[Copy to clipboard] [ - ]
CODE:martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/recrawl.sh ../tomcat5/webap ps/ROOT xici/ 2 . 2. 10 1 5
wiki中对参数的说明已经很详细了,没有必要再多说了。这里有个参数../tomcat5/webap你可以看到脚本中只是
[Copy to clipboard] [ - ]
CODE:touch $tomcat_dir/WEB-INF/web.xml
让tomcat重新加载webapp,如果你没有使用tomcat,只是recrawl,你修改一下脚本,就把这个参数给去掉吧。
二:Crawl more urls and merge
我们上面只是抓取了一个xici的页面,但是我们的目标不仅仅是一个,而是一系列的,所有我们必须增加新的url进行抓取。
新增news.163.com
[Copy to clipboard] [ - ]
CODE:mkdir url2
echo [url]http://news.163.com[/url]>url2/163
echo [url]http://news.163.com[/url]>url2/163
重新执行我们上面提到的crawl
[Copy to clipboard] [ - ]
CODE:martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/nutch crawl url2 -dir 163 -depth 3 -topN 50
合并我们采用nutch wiki上的脚本http://wiki.apache.org/nutch/MergeCrawl保存到bin/mergecrawl.sh。
[Copy to clipboard] [ - ]
CODE:martin@martinx:~/workspace/doc/nutch-0.8.1$ bin/mergecrawl.sh newpath 163/ xici/
传递的两个参数分别是两次crawl的目录
修改tomcat目录下的classes/nutch-site.xml文件,将searcher.dir修改为新的索引目录
[Copy to clipboard] [ - ]
CODE:perl -pi -e 's|xici|newpath|' ../tomcat5/webapps/ROOT/WEB-INF/classes/nutch-site.xml
重新加载webapp
[Copy to clipboard] [ - ]
CODE:touch ../tomcat5/webapps/ROOT/WEB-INF/web.xml
以下是截图
这个是163的
这个是xici的
- Nutch 笔记(二):Craw more urls and Recrawl(收藏)
- Nutch 笔记(二):Craw more urls and Recrawl
- Nutch recrawl script
- nutch的重爬recrawl
- Nutch 笔记(一):Nutch 快速上手指南(收藏)
- eclipse中编译nutch后出现no more URLs to fetch解决方法
- Apache-nutch-1.10 安装笔记(二)
- Nutch学习笔记二
- 读书笔记:Django 模板开发(二)Views, URLs, and Generic Views
- nutch recrawl中出现的问题及解决
- nutch 1.2 增量爬取url 完成 recrawl.sh 编写
- nutch 1.4 的增量爬取(recrawl)脚本
- Nutch Wiki ---Nutch的详细介绍(EN)(收藏)
- IRIs, URIs and URLs
- URIs, URLs, and URNs
- URIs, URLs, and URNs
- URIs, URLs, and URNs
- URIs, URLs, and URNs
- 看看玻璃代码,就知道你的车窗玻璃是谁造的
- AJAX在静态HTML页面中实现权限控制的应用
- C++中的引用
- asp.net 路径问题
- asp.net 利用js 脚本 交互前后台
- Nutch 笔记(二):Craw more urls and Recrawl(收藏)
- JS常用正则表达式
- Tiny Download&&Exec ShellCode
- ANSI/ISO C++ Professional Programmer's Handbook 4
- 单击按钮或执行一些其他操作会导致回发
- Nutch研究系列1——安装(收藏)
- 爱似神仙 碧娜
- 盘口技术大全(一): 看盘要诀
- Get还是Post