使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎抓取并测试搜索结果
来源:互联网 发布:擎洲广达软件 编辑:程序博客网 时间:2024/03/29 14:23
这篇文章小编将给大家继续讲解在已经搭建好了 Hadoop,Nutch ,Hbase,Solr 之后进行数据的抓取以及测试搜索效果
hadoop搭建:http://blog.csdn.net/shuaigexiaobo/article/details/77481391
hbase搭建:http://blog.csdn.net/shuaigexiaobo/article/details/77503199
nutch搭建:http://blog.csdn.net/shuaigexiaobo/article/details/77505684
solr 搭 建:http://blog.csdn.net/shuaigexiaobo/article/details/77506257
启动抓取并测试搜索效果
(一)添加抓取URL
进到/usr/local/nutch/apache-nutch-2.2.1runtime/local目录,创建urls目录并创建url.txt文件内容为种子url,如:
http://www.ihep.cas.cn/(二)执行
./bin/crawl urls TestCrawl http://localhost:8983/solr 2
1.直接执行bin/crawl 然后系统会出现个提示
Usage:crawl <seedDir> <crawlDir> <solrURL> <numberOfRounds>
参数说明:seedDir:种子url的目录地址
crawlDir:保存爬取文件的目录
solrURL:solr的地址(没有则为空)
2.根据这个,用的一个命令,系统开始执行起来。
bin/crawl urls/seed.txt crawls null 90
3.系统生成crawls文件夹,下面生成了三个文件
crawldb、linkdb、segments
问题一:
java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V解决办法:我们选择hbase 0.92 到 0.93之间的版本,首先尝试0.92版本,可以从maven中心库下载:
http://central.maven.org/maven2/org/apache/hbase/hbase/0.92.2/hbase-0.92.2.jar然后将hbase-0.92.2.jar包替换掉nutch的lib目录下的较高版本的hbase-0.94.1.jar包。
问题二:
SolrIndexerJob: java.lang.RuntimeException: job failed: name=[TestCrawl]solr-index, jobid=job_local1424084832_0001解决:重新安装了solr ,Hadoop。
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎抓取并测试搜索结果
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之Nutch2.2.1
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之Hbase-0.94.27.搭建
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之Hadoop1.2.1搭建
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之搭建solr4.9.1
- nutch/solr/lucene//hadoop/hbase 搜索引擎
- 利用nutch、hbase和solr搭建搜索引擎
- Nutch + Solr + Hadoop 搭建分布式搜索引擎详细教程
- hadoop+nutch+solr搜索引擎配
- [Nutch]Nutch2.3+Hadoop+HBase+Solr在Ubuntu环境搭建
- 使用Nutch和Solr抓取并索引网页
- 转:使用Nutch和Solr抓取并索引网页
- 使用Nutch和Solr抓取并索引网页
- 【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】
- 【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】
- 使用搜索引擎搜索结果
- Solr搜索引擎(6)搜索结果高亮
- 生成全部可能存在的身份证号码并写入solr搜索引擎,及搜索查询结果
- 扑克牌顺子
- 微信支付开发文件WxPay.Config.php配置详解-公众号支付开发-视频教程4
- Dlib在VS2013上的配置方法
- 如何设计短信验证码防刷机制
- souce insight4.0 macro脚本不兼容问题
- 使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎抓取并测试搜索结果
- phalapi框架接口实现视频上传
- 京东商品详情视觉差效果
- Electron部署和打包
- 直播基础
- Spring源码(六)-Spring循环依赖的解决方案
- POJ 2349 Arctic Network (最小生成树)
- 多少个元素
- 关于AlertDialog的几种方法