hadoop_9.06

来源:互联网 发布:c语言 pipe 编辑:程序博客网 时间:2024/06/08 06:52

ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。

安装软件:集群安装所需软件。
sudoaptgetinstallssh sudo apt-get install rsync
远程同步功能。
免密码ssh设置

现在确认能否不输入口令就用ssh登录localhost:
$ ssh localhost

如果不输入口令就无法用ssh登陆localhost,执行下面的命令:
sshkeygentdsaPf /.ssh/iddsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

根据处理数据的方式:
1、Hive是支持SQL语句的,执行会调用mapreduce,所以延迟比较高;
2、HBase是面向列的分布式数据库,使用集群环境的内存做处理,效率会比hive要高,但是不支持sql语句。
Hadoop开发和运行处理大规模数据,需要用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面的 hql查询,hive也即做数据仓库。