从零开始搭建nutch搜索引擎
来源:互联网 发布:蛛网发射器 淘宝 编辑:程序博客网 时间:2024/05/10 09:01
- 我载nutch1.2并解压: # wget http://apache.etoak.com//nutch/apache-nutch-1.2-bin.tar.gz .
- 下载tomcat6并解压: # wget http://apache.etoak.com/tomcat/tomcat-6/v6.0.32/bin/apache-tomcat-6.0.32.tar.gz
- 设置JAVA环境变量 在~/.bashrc结尾处添加:export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk-1.6.0.0/jre,重启终端后生效。
- 配置nutch 创建初始url文件,并写入一个(或多个)url# cd nutch-1.2
- 开始抓取网络数据 # ./bin/nutch crawl urls.test/iniurls -depth 3 >& crawl.log
- 配置搜索引擎 进入apache-tomcat-6.0.32/webapps/ROOT#cd ../apache-tomcat-6.0.32/webapps/ROOT/
- 测试搜索引擎 开启tomcat6
- 未完待续(修正中文乱码问题)
# tar zxvf apache-nutch-1.2-bin.tar.gz
# tar zxvf apache-tomcat-6.0.32.tar.gz
# mkdir urls.test
# echo http://www.sina.com/ > urls.test/iniurls
修改文件conf/crawl-urlfilter.txt:将MY.DOMAIN.NAME替换为sina.com,或者干脆去掉,只留+^http://修改文件conf/nutch-default.xml:将http.agent.name的value写为my nutch agent(或其他任意值)
运行完毕后生成文件夹crawl-20110513015802(文件名标识开始爬虫开始时间),若想指定文件夹名字,可在上述命令中加参数 -dir dirname
删除所有文件# rm -rf *解压nutch-1.2/nutch-1.2.war到上述目录
# jar xvf nutch-1.2.war
修改apache-tomcat-6.0.32/webapps/ROOT/WEB-INF/classes/nutch-site.xml,导入已爬取的网络数据的数据库
# cd apache-tomcat-6.0.32
# ./bin/startup.sh
若以上顺利,在浏览器中输入http://localhost:8080,会见到nutch的搜索界面
- 从零开始搭建nutch搜索引擎
- nutch搜索引擎的搭建
- 搭建基于nutch的搜索引擎
- windows上搭建自己的搜索引擎nutch
- Linux下用nutch搭建搜索引擎
- nutch搜索引擎的搭建以及配置
- 利用nutch、hbase和solr搭建搜索引擎
- Nutch+MongoDB+ElasticSearch+Kibana 搭建搜索引擎
- Nutch+MongoDB+ElasticSearch+Kibana 搭建搜索引擎
- 搜索引擎 Nutch
- windows XP下nutch-1.0搜索引擎环境搭建
- Nutch + Solr + Hadoop 搭建分布式搜索引擎详细教程
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之Nutch2.2.1
- 使用nutch搭建类似百度/谷歌的搜索引擎
- 开始研究Nutch搜索引擎
- Nutch搜索引擎分析
- Nutch搜索引擎分析(收藏)
- Nutch搜索引擎分析
- Qt4访问sqlite数据库
- 一个人的成功取决于晚上的8点至10点--经典语录
- QT学习:根据数据库的内容动态添加Button
- 启动eclipse是报 no java virtual machine was found after searching the following location
- Linux下创建DB2实例
- 从零开始搭建nutch搜索引擎
- win2003此域的推荐安全级别是“安全级-高”,无法修改的解决方法
- 可视化HTML编辑器 CKEditor
- 白色衣服越穿越白的窍门
- 创建表空间语句
- java集群
- JSP 里外部引用CSS样式的路径问题
- 6.4.1 使用 map 函数
- 翻开新的一页