使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎抓取并测试搜索结果

来源:互联网 发布:擎洲广达软件 编辑:程序博客网 时间:2024/03/29 14:23

    这篇文章小编将给大家继续讲解在已经搭建好了 Hadoop,Nutch ,Hbase,Solr 之后进行数据的抓取以及测试搜索效果

hadoop搭建:http://blog.csdn.net/shuaigexiaobo/article/details/77481391

hbase搭建:http://blog.csdn.net/shuaigexiaobo/article/details/77503199

nutch搭建:http://blog.csdn.net/shuaigexiaobo/article/details/77505684

solr 搭 建:http://blog.csdn.net/shuaigexiaobo/article/details/77506257

启动抓取并测试搜索效果

(一)添加抓取URL

    进到/usr/local/nutch/apache-nutch-2.2.1runtime/local目录,创建urls目录并创建url.txt文件内容为种子url,如:  

http://www.ihep.cas.cn/
    (二)执行

./bin/crawl urls TestCrawl http://localhost:8983/solr 2

1.直接执行bin/crawl 然后系统会出现个提示

Usage:crawl <seedDir> <crawlDir> <solrURL> <numberOfRounds>
参数说明:seedDir:种子url的目录地址
crawlDir:保存爬取文件的目录
solrURL:solr的地址(没有则为空)
2.根据这个,用的一个命令,系统开始执行起来。
bin/crawl urls/seed.txt crawls null 90
3.系统生成crawls文件夹,下面生成了三个文件
crawldb、linkdb、segments

 

问题一:
java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V  
解决办法:我们选择hbase 0.92 到 0.93之间的版本,首先尝试0.92版本,可以从maven中心库下载:
http://central.maven.org/maven2/org/apache/hbase/hbase/0.92.2/hbase-0.92.2.jar  
然后将hbase-0.92.2.jar包替换掉nutch的lib目录下的较高版本的hbase-0.94.1.jar包。
问题二:

SolrIndexerJob: java.lang.RuntimeException: job failed: name=[TestCrawl]solr-index, jobid=job_local1424084832_0001
解决:重新安装了solr ,Hadoop。




阅读全文
0 0
原创粉丝点击