大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略（中集）

来源：互联网发布：淘宝店铺编辑宝贝编辑：程序博客网时间：2024/06/07 03:49

hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5配置详见安装配置攻略（上集）

接下来具体实现单机伪分布式爬取！

一首先启动hadoop(配置完成可在任意目录下。也可在hadoop目录下)

<span style="font-size:14px;">$ start-all.sh$ jps <!--查看hadoop启动的进程--></span>

二启动hbase(配置完成可在任意目录下。也可在hadoop目录下)开启hbase之前，先查看/etc/hosts中主机对应的IP是否是机器此时的IP，每一次重启机器IP地址会变化，不修改IP会出现Hmaster节点无法启动（我在这里卡了很久）

<span style="font-size:14px;">$ sudo gedit /etc/hosts</span>

打开文档，用ifconfig命令查看此时机器的IP，并修改hosts中的主机IP

启动hbase

<span style="font-size:14px;"><span style="font-size:14px;">$ start-hbase.sh$ jps查看进程结点，有9个则启动成功。<span style="background-color: rgb(51, 204, 0);">2032 NameNode13764 HQuorumPeer29069 Jps2630 JobTracker2280 DataNode13889 HMaster2535 SecondaryNameNode2904 TaskTracker14180 HRegionServer</span></span>少一个则需要查找相应的错误！

<strong>三 简单体验一下抓取和检索的过程</strong>1、建立一个目录urls2、在urls目录里写一个种子文件，命名为url，里面随便写个页面丰富的网址例如http://blog.tianya.cn/3、将该目录放到hadoop的hdfs上$ hadoop dfs -put url url1

$ hadoop dfs -ls查看hadoop中的文件，也可访问localhost:50070(50030)hadoop页面。

</pre><p></p><span style="font-size:14px;"></span><pre name="code" class="html">4、执行nutch inject，向hbase注入抓取种子页（进入deploy文件）<pre name="code" class="html"><span style="font-size:14px;">

deploy$ bin/nutch inject url1</span>

执行完成后，可以在hbase里面看到“webpage”这个表

分别执行以下命令

<span style="font-size:14px;">bin/nutch generate -topN 10bin/nutch fetch -allbin/nutch parse -allbin/nutch updatedb</span>

执行完成后，可以去hbase里面scan一下webpage表，应该已经有了百行以上的结果,命令如下：

<span style="font-size:14px;">$/home/hadoop/hbase-0.94.11/bin/hbase shell<span style="background-color: rgb(51, 255, 51);"><span style="background-color: rgb(51, 204, 0);">HBase Shell; enter 'help<RETURN>' for list of supported commands.Type "exit<RETURN>" to leave the HBase ShellVersion 0.90.4, r1150278, Sun Jul 24 15:53:29 PDT 2011hbase(main):001:0> listTABLE                                          webpage                                         1 row(s) in 0.5270 seconds</span></span><span style="font-size:14px;">6、为elasticsearch建立索引</span>

运行elasticsearch启动elasticsearch服务
bin/nutch elasticindex <cluster name> -all
如果没有修改过es的配置文件，这里<cluster name>默认应该是 elasticsearch

7、利用curl进行查询

elasticsearch-head是一个elasticsearch的集群管理工具，它是完全由html5编写的独立网页程序，你可以通过插件把它集成到es

插件安装方法1：

1.elasticsearch/bin/plugin -install mobz/elasticsearch-head

2.运行es

3.打开http://localhost:9200/_plugin/head/

插件安装方法2：

1.https://github.com/mobz/elasticsearch-head下载zip 解压

2.建立elasticsearch-1.0.0\plugins\head\_site文件

3.将解压后的elasticsearch-head-master文件夹下的文件copy到_site

4.运行es

5.打开http://localhost:9200/_plugin/head/

在地址栏输入es服务器的ip地址和端口点connect就可以连接到集群。下面是连接后的视图。这是主界面，在这里可以看到es集群的基本信息

参考链接：http://blog.csdn.net/july_2/article/details/24481935

0 0