搜索引擎项目文档-----环境搭建
来源:互联网 发布:汽车网络推广 编辑:程序博客网 时间:2024/06/08 20:39
环境:Ubuntu12.04+Nutch1.7+Solr4.7+Tomcat6.0+Hbase(版本暂定)
第一期目标:搭建搜索引擎Demo以及应用Hbase的数据储存特点完成从指定网站站点抓取数据并根据设置KeyWorld进行检索过滤,将过滤结果存储在Hbase中,并通过Hbase进行二次筛选过滤,将结果输出到CSV中。
目标:
- Demo:以特定网站站点(豆瓣)为目标抓取数据,
流程步骤:
- Task任务设置:设置抓取URL集、设置抓取关键词过滤、设置抓取时间范围
- Nutch抓取
- Lucene/solr/elasticSearch创建索引,将索引存储在HDFS中
- 根据Task设置KeyWord到索引库中查询数据
- 查询结果入HBase
- Hbase过滤筛选导出Excel
已完成:
- nutch单机本地跑没问题
- hbase部署成功,基本操作成功
- HDFS搭建已完成
- Solr中文分词已配
- HBase过滤、查询
待办:
- 要服务器,服务器环境配置()
- nutch+hbase集成(初步)
- Nutch+solr创建的索引不知道索引存储位置
- Solr创建的索引存储在HDFS中
- Solr查询过程、以及结果格式说明文档
- 将Solr查询结果导出到CSV文件
- 将CSV结果导入到HBASE中
- HBase导出到Excel
- Nutch集群
- Nutch时间过滤插件(未完成)
- Task具体内容整理
- 站点频道信息手动维护:创建站点--频道--url对应树
- 完善任务Keyword设置(加权重)目前权重相同。
Nutch插件:
- 中文分词插件(已完成)
- Nutch时间过滤插件(未完成)
- 微博等特性网站(Demo暂不做)
其他
win putty(windows下链接linux服务器的终端)
时间安排
2014-11-24---2014-11-30:
- 站点频道信息手动维护:创建站点--频道--url对应树
- 要服务器,服务器环境配置(抓取相关的l部署、HDFS相关的S部署)
- Task任务设置:设置抓取URL集、设置抓取关键词过滤、设置抓取时间范围
- Nutch抓取
- Lucene/solr创建索引
- 根据Task设置KeyWord到索引库中查询数据,导出到CSV/Excel
一、环境搭建
1.1 Ubuntu12.04环境安装
这个就不用多说了,看这篇文档
1.2 Linux 下Jdk1.7的安装和配置
这个也不用多说了,看这篇文档
1.3 Tomcat6.0的安装和配置
1.3.1下载Tomcat6.0的zip压缩包,将压缩包解压到/usr/lib/tomcat6.0目录下
1.3.2 修改tomcat6.0文件夹的权限:sudo chmod -R 777 /usr/lib/tomcat6.0
1.3.3 在tomcat6.0目录下输入bin/startup.sh 若正常启动则可在浏览器上访问http://localhost:8080,表示tomcat安装成功。
1.4 Nutch1.7的安装和配置
1.4.1下载Nutch.17的源文件src包和编译文件bin包,并解压
1.4.2 将Nutch1.7导入到Eclipse中:看这篇文档
1.4.3 在myeclipse2014中搭建Nutch的web项目报错:
java.lang.NoSuchMethodError: org.eclipse.jdt.internal.compiler.CompilationResult.getProblems()[Lorg/eclipset/core/compiler/CategorizedProblem;
org.apache.jasper.compiler.JDTCompiler$2.acceptResult(JDTCompiler.java:370)
org.eclipse.jdt.internal.compiler.Compiler.compile(Compiler.java:335)
org.apache.jasper.compiler.JDTCompiler.generateClass(JDTCompiler.java:429)
org.apache.jasper.compiler.Compiler.compile(Compiler.java:349)
org.apache.jasper.compiler.Compiler.compile(Compiler.java:327)
org.apache.jasper.compiler.Compiler.compile(Compiler.java:314)
org.apache.jasper.JspCompilationContext.compile(JspCompilationContext.java:589)
org.apache.jasper.servlet.JspServletWrapper.service(JspServletWrapper.java:317)
org.apache.jasper.servlet.JspServlet.serviceJspFile(JspServlet.java:313)
org.apache.jasper.servlet.JspServlet.service(JspServlet.java:260)
javax.servlet.http.HttpServlet.service(HttpServlet.java:717)
仔细观察后发现,lib里面有个 jdt-compiler-*.jar包,估计是他和eclipse自带的编译器出现冲突。
解决办法,remove it!
1.5 Solr4.7的安装和配置
1.5.1 下载Solr4.7的压缩包,并将压缩包解压
1.5.2 Solr4.7集成Tomcat6.0
1.5.3 Solr4.7集成Nutch1.7
1.5.4 Solr4.7配置中文分词
1.6 几种中文分词插件的比较以及使用
1.6 中文分词配置
- 搜索引擎项目文档-----环境搭建
- 搜索引擎项目文档
- 搜索引擎Solr环境搭建详解
- 搜索引擎Solr环境搭建详解
- 【垂直搜索引擎搭建01】heritrix环境搭建
- iis环境搭建文档
- Solr 4.5.1 搜索引擎 环境搭建
- Solr 4.5.1 搜索引擎 环境搭建
- Solr 4.5.1 搜索引擎 环境搭建
- 笔记,项目环境搭建。
- 项目环境搭建步骤
- 项目环境搭建步骤
- eclipse项目环境搭建
- maven项目环境搭建
- 项目环境搭建
- AngularJS项目环境搭建
- RN项目环境搭建
- SpringMVC项目环境搭建
- SVN中trunk,branches,tags用法详解
- HDU's ACM 1040 As Easy As A+B
- Cheap nfl super bowl jerseys wholesale from china
- wholesale stitched jerseys from china
- 十六进制与十进制之间的转换
- 搜索引擎项目文档-----环境搭建
- 在排序数组中的出现次数 Count the number of occurrences in a sorted array
- 杨辉三角
- cocos2dx ver3.3 的Sprite3DTest 例子中可以学到什么
- cheap authentic jerseys from china
- [分享]Ubuntu12.04安装基础教程(图文)
- 图 DFS BFS 回溯
- Ubuntu12.04安装Jdk1.7
- cheap china nfl jerseys