大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略(中集)
来源:互联网 发布:淘宝店铺编辑宝贝 编辑:程序博客网 时间:2024/06/07 03:49
hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5配置详见安装配置攻略(上集)
接下来具体实现单机伪分布式爬取!
一 首先启动hadoop(配置完成可在任意目录下。也可在hadoop目录下)
<span style="font-size:14px;">$ start-all.sh$ jps <!--查看hadoop启动的进程--></span>
二 启动hbase(配置完成可在任意目录下。也可在hadoop目录下)开启hbase之前,先查看/etc/hosts中主机对应的IP是否是机器此时的IP,每一次重启机器IP地址会变化,不修改IP会出现Hmaster节点无法启动(我在这里卡了很久)
<span style="font-size:14px;">$ sudo gedit /etc/hosts</span>打开文档,用ifconfig命令查看此时机器的IP,并修改hosts中的主机IP
启动hbase
<span style="font-size:14px;"><span style="font-size:14px;">$ start-hbase.sh$ jps查看进程结点,有9个则启动成功。<span style="background-color: rgb(51, 204, 0);">2032 NameNode13764 HQuorumPeer29069 Jps2630 JobTracker2280 DataNode13889 HMaster2535 SecondaryNameNode2904 TaskTracker14180 HRegionServer</span></span>少一个则需要查找相应的错误!
<strong>三 简单体验一下抓取和检索的过程</strong>1、建立一个目录urls2、在urls目录里写一个种子文件,命名为url,里面随便写个页面丰富的网址例如http://blog.tianya.cn/3、将该目录放到hadoop的hdfs上$ hadoop dfs -put url url1
$ hadoop dfs -ls查看hadoop中的文件,也可访问localhost:50070(50030)hadoop页面。
</pre><p></p><span style="font-size:14px;"></span><pre name="code" class="html">4、执行nutch inject,向hbase注入抓取种子页(进入deploy文件)<pre name="code" class="html"><span style="font-size:14px;">deploy$ bin/nutch inject url1</span>
执行完成后,可以在hbase里面看到“webpage”这个表
分别执行以下命令
<span style="font-size:14px;">bin/nutch generate -topN 10bin/nutch fetch -allbin/nutch parse -allbin/nutch updatedb</span>
执行完成后,可以去hbase里面scan一下webpage表,应该已经有了百行以上的结果,命令如下:
<span style="font-size:14px;">$/home/hadoop/hbase-0.94.11/bin/hbase shell<span style="background-color: rgb(51, 255, 51);"><span style="background-color: rgb(51, 204, 0);">HBase Shell; enter 'help<RETURN>' for list of supported commands.Type "exit<RETURN>" to leave the HBase ShellVersion 0.90.4, r1150278, Sun Jul 24 15:53:29 PDT 2011hbase(main):001:0> listTABLE webpage 1 row(s) in 0.5270 seconds</span></span><span style="font-size:14px;">6、为elasticsearch建立索引</span>运行elasticsearch启动elasticsearch服务
bin/nutch elasticindex <cluster name> -all
如果没有修改过es的配置文件,这里<cluster name>默认应该是 elasticsearch
7、利用curl进行查询
elasticsearch-head是一个elasticsearch的集群管理工具,它是完全由html5编写的独立网页程序,你可以通过插件把它集成到es
插件安装方法1:
1.elasticsearch/bin/plugin -install mobz/elasticsearch-head
2.运行es
3.打开http://localhost:9200/_plugin/head/
插件安装方法2:
1.https://github.com/mobz/elasticsearch-head下载zip 解压
2.建立elasticsearch-1.0.0\plugins\head\_site文件
3.将解压后的elasticsearch-head-master文件夹下的文件copy到_site
4.运行es
5.打开http://localhost:9200/_plugin/head/
在地址栏输入es服务器的ip地址和端口点connect就可以连接到集群。下面是连接后的视图。这是主界面,在这里可以看到es集群的基本信息
参考链接:http://blog.csdn.net/july_2/article/details/24481935 0 0
- 大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略(中集)
- 大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置(上集)
- hadoop1.1.2+hbase0.92.2+nutch2.2.1+solr4.6.1配置全记录
- Hadoop1.2.1+Hbase0.94.14完全分布式安装
- hadoop1.2.1安装hbase0.98.6版本
- hadoop1.0.1+hbase0.94.14+nutch2.3爬虫
- Nutch2.3+Hbase0.94+Solr4.10.3单机集成配置安装
- hadoop1.2.1安装配置
- 安装配置hadoop1.2.1
- hadoop1.2.1安装配置
- hadoop1.2.1安装配置
- 大数据学习笔记——hadoop1.2.1 eclipse_plugin编译、安装及使用
- 大数据学习笔记——hadoop1.2.1 MapReduce简介
- hive0.11.0/hadoop1.2.1/hbase0.94.15整合
- hbase的安装与配置(zookeeper3.4.3,hbase0.94.1,hadoop1.03)
- hadoop1.0.0 ,hbase0.90.6,nutch2.1搭配方法,修订版
- Nutch2.2.1的配置(使用MySQL作为数据存储)
- 初学者VmWare安装CentOS6.4虚拟机搭建hadoop1.2.1\hbase0.94.12环境
- iOS常用小功能的实现
- 文字输入组件的使用与介绍
- 对称加密算法之RC4介绍及OpenSSL中RC4常用函数使用举例
- 初学者 学好JAVA最关键几点
- 2015 大寒,奔跑
- 大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略(中集)
- 地址联动(基于xpath的实现)
- Changing the ID of the Dynamixel
- Object(三)toString方法
- Connection reset by peer的原因
- spring mvc @RequestMapping_method_params_value 传递id不带占位符
- 菜单(二)
- 负数的二进制表示方法
- NVIDIA Jetson TK1学习与开发(七):图文详解OpenCV在Jetson TK1上的安装和使用