nutch在windows下的配置
来源:互联网 发布:网络系统安全课程 编辑:程序博客网 时间:2024/05/01 00:14
nutch0.9+Tomcat6在windows下的配置,还需要下载一个Cygwin类UNIX模拟环境,当然在linux环境下可以跳过这个。
在nutch-0.9目录下新建一个weburls.txt,用于存放入口网页地址,如http://www.view.sdu.edu.cn/。然后在nutch-0.9/conf/crawl-urlfilter.txt文件里修改以下地方:在
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
后面添加+^http://www.view.sdu.edu.cn/这一行。
在nutch-0.9/conf/nutch-site.xml文件里的配置里添加以下:
<property>
<name>http.agent.name</name>
<value>*</value>
<description>localweb.com</description>
</property>
<property>
<name>searcher.dir</name>
<value>D:\nutch\nutch-0.9\localweb</value>
<description></description>
</property>
然后打开Cygwin,到nutch-0.9的目录下,敲入命令行 bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2,然后回车等待下载。下载完成后,将nutch-0.9目录下的nutch-0.9.war文件复制到tomcat目录下的webapps目录下并解压,解压过程中选择全部替换。然后在解压后的webapps/nutch-0.9/WEB-INF/classes目录下的nutch-site.xml文件里进行修改,将以下内容添加到configuration属性中:
<property>
<name>searcher.dir</name>
<value>D:\nutch\nutch-0.9\localweb</value>
<description></description>
</property>
然后打开浏览器输入http://127.0.0.1:8080/nutch-0.9出现nutch界面:
测试查询,输入 山东大学齐鲁医院 ,出现以下界面:
nutch搜索引擎初步完成。注意上述步骤的操作顺序,有些顺序十分严格,本实验感谢董小五程序媛鼓励师的耐心指导。
- nutch在windows下的配置
- Windows下Nutch的配置
- Windows下Nutch的配置
- nutch 1.4在windows下安装配置
- Windows下配置nutch
- nutch 0.9在Windows下的安装
- nutch 0.9在Windows下的安装
- nutch 1.0在Windows下的安装
- Nutch-0.9在MyEclipse下的配置
- nutch在linux下的安装配置
- windows环境下Nutch配置
- nutch 1.4成功在windows的配置和使用
- Windows下Nutch的使用
- Windows下,Nutch安装配置指南
- windows下安装配置nutch-0.9
- Windows下Nutch的安装过程
- Windows下Nutch的安装过程
- Windows下安装Nutch
- ubuntu鼠标灵敏度设置
- 网狐6603 麻将、房卡类子游戏 (手机端+服务器+数据库)全套完整源码 定制开发
- 357. Count Numbers with Unique Digits
- 进程的几种操作c++版
- 卷积神经网路(CNN)
- nutch在windows下的配置
- 【DP】动态规划分类以及相关题目
- leetcode No239. Sliding Window Maximum
- SSD的配置及运行
- JavaWeb日记——常用Redis配置
- Iterator和Iterable
- CuteFTP下载包含中文的文件,无法下载的问题
- vue-cli的使用与解释
- vs2012与我的win7不兼容,怎么办