搜索引擎项目文档-----环境搭建

来源:互联网 发布:汽车网络推广 编辑:程序博客网 时间:2024/06/08 20:39

环境:Ubuntu12.04+Nutch1.7+Solr4.7+Tomcat6.0+Hbase(版本暂定)

      第一期目标:搭建搜索引擎Demo以及应用Hbase的数据储存特点完成从指定网站站点抓取数据并根据设置KeyWorld进行检索过滤,将过滤结果存储在Hbase中,并通过Hbase进行二次筛选过滤,将结果输出到CSV中。

目标:
- Demo:以特定网站站点(豆瓣)为目标抓取数据,

流程步骤:
   - Task任务设置:设置抓取URL集、设置抓取关键词过滤、设置抓取时间范围
   - Nutch抓取
   - Lucene/solr/elasticSearch创建索引,将索引存储在HDFS中
   - 根据Task设置KeyWord到索引库中查询数据
   - 查询结果入HBase
   - Hbase过滤筛选导出Excel

已完成:
- nutch单机本地跑没问题
- hbase部署成功,基本操作成功
- HDFS搭建已完成
- Solr中文分词已配
- HBase过滤、查询

待办:
- 要服务器,服务器环境配置()
- nutch+hbase集成(初步)
- Nutch+solr创建的索引不知道索引存储位置
- Solr创建的索引存储在HDFS中
- Solr查询过程、以及结果格式说明文档
- 将Solr查询结果导出到CSV文件
- 将CSV结果导入到HBASE中
- HBase导出到Excel
- Nutch集群
- Nutch时间过滤插件(未完成)
- Task具体内容整理
- 站点频道信息手动维护:创建站点--频道--url对应树
- 完善任务Keyword设置(加权重)目前权重相同。

Nutch插件:
 - 中文分词插件(已完成)
 - Nutch时间过滤插件(未完成)
 - 微博等特性网站(Demo暂不做)

其他
win  putty(windows下链接linux服务器的终端)

时间安排
2014-11-24---2014-11-30:
   - 站点频道信息手动维护:创建站点--频道--url对应树
   - 要服务器,服务器环境配置(抓取相关的l部署、HDFS相关的S部署)
   - Task任务设置:设置抓取URL集、设置抓取关键词过滤、设置抓取时间范围
   - Nutch抓取
   - Lucene/solr创建索引
   - 根据Task设置KeyWord到索引库中查询数据,导出到CSV/Excel

    


一、环境搭建

    1.1  Ubuntu12.04环境安装

         这个就不用多说了,看这篇文档

    1.2 Linux 下Jdk1.7的安装和配置

         这个也不用多说了,看这篇文档

    1.3 Tomcat6.0的安装和配置

        1.3.1下载Tomcat6.0的zip压缩包,将压缩包解压到/usr/lib/tomcat6.0目录下

        1.3.2  修改tomcat6.0文件夹的权限:sudo chmod -R 777 /usr/lib/tomcat6.0

        1.3.3  在tomcat6.0目录下输入bin/startup.sh 若正常启动则可在浏览器上访问http://localhost:8080,表示tomcat安装成功。

    1.4 Nutch1.7的安装和配置

        1.4.1下载Nutch.17的源文件src包和编译文件bin包,并解压

         1.4.2  将Nutch1.7导入到Eclipse中:看这篇文档

         1.4.3 在myeclipse2014中搭建Nutch的web项目报错:

java.lang.NoSuchMethodError: org.eclipse.jdt.internal.compiler.CompilationResult.getProblems()[Lorg/eclipset/core/compiler/CategorizedProblem;
org.apache.jasper.compiler.JDTCompiler$2.acceptResult(JDTCompiler.java:370)
org.eclipse.jdt.internal.compiler.Compiler.compile(Compiler.java:335)
org.apache.jasper.compiler.JDTCompiler.generateClass(JDTCompiler.java:429)
org.apache.jasper.compiler.Compiler.compile(Compiler.java:349)
org.apache.jasper.compiler.Compiler.compile(Compiler.java:327)
org.apache.jasper.compiler.Compiler.compile(Compiler.java:314)
org.apache.jasper.JspCompilationContext.compile(JspCompilationContext.java:589)
org.apache.jasper.servlet.JspServletWrapper.service(JspServletWrapper.java:317)
org.apache.jasper.servlet.JspServlet.serviceJspFile(JspServlet.java:313)
org.apache.jasper.servlet.JspServlet.service(JspServlet.java:260)
javax.servlet.http.HttpServlet.service(HttpServlet.java:717)
仔细观察后发现,lib里面有个 jdt-compiler-*.jar包,估计是他和eclipse自带的编译器出现冲突。
解决办法,remove it!

    1.5 Solr4.7的安装和配置

        1.5.1  下载Solr4.7的压缩包,并将压缩包解压

         1.5.2   Solr4.7集成Tomcat6.0

          1.5.3   Solr4.7集成Nutch1.7

          1.5.4   Solr4.7配置中文分词

    1.6  几种中文分词插件的比较以及使用

    1.6 中文分词配置

0 0
原创粉丝点击