使用 Hadoop,Nutch ,Hbase,Solr 搭建搜索引擎之Nutch2.2.1

来源:互联网 发布:qq邮箱服务器端口 编辑:程序博客网 时间:2024/04/26 20:26

    这篇文章小编讲解Nutch2..2.1的搭建,前提是已经搭建好了hadoop,以及Hbase,还没有搭建好的可以参考小编的这两篇文章。

    Hadoop搭建:http://blog.csdn.net/shuaigexiaobo/article/details/77481391

    Hbase搭建:http://blog.csdn.net/shuaigexiaobo/article/details/77503199

    Nutch环境搭建, Nutch2.2.1安装过程

    (一)进入或者创建usr/local/nutch文件夹
    (二)修改目录权限
    sudo chmod 777 -R nutch
    (三)在nutch文件夹下下载apache-nutch-2.2.1-src
    
wget https://archive.apache.org/dist/nutch/2.2.1/apache-nutch-2.2.1-src.tar.gz 

    (四)在nutch文件夹中解压apache-nutch-2.2.1-src
    tar -zxvf apache-nutch-2.2.1-src.tar.gz 
    (五)修改./conf/gora.properties增加如下一行
    gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
     (六)修改./conf/nutch-site.xml
<configuration>    <property>        <name>storage.data.store.class</name>        <value>org.apache.gora.hbase.store.HBaseStore</value>        <description>Default class for storing data</description>    </property>    <property>        <name>http.agent.name</name>        <value>My Nutch Spider</value>    </property>    <property>        <name>plugin.includes</name>        <value>protocol-httpclient|urlfilter-regex|index-(basic|more)|query-(basic|site|url|lang)|indexer-solr|nutch-extensionpoints|protocol-httpclient|urlfilter-regex|parse-(text|html|msexcel|msword|mspowerpoint|pdf)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)protocol-http|urlfilter-regex|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value>    </property></configuration>
    (七)修改./ivy/ivy.xml
    将依赖的Hadoop-core和hadoop-test的版本由1.2.0改为1.2.1 
    将gora-hbase依赖解除注释如下: 
    <dependency org=”org.apache.gora” name=”gora-hbase” rev=”0.5″ conf=”*->default” />
    (八)在apach-nutch-2.3目录中 输入 ant 命令
    成功后将完成Nutch的安装。     



阅读全文
0 0
原创粉丝点击