Mac搭建hadoop伪分布式系统

来源:互联网 发布:淘宝店铺招牌950 编辑:程序博客网 时间:2024/06/06 19:06

1. 首先安装HADOOP(我的安装版本是2.7.3)

$ brew install hadoop


2. 配置ssh免密登录,生成id_rsa(私钥)和id_rsa.pub(公钥)两个文件

$ mkdir ~/.ssh

$ cd ~/.ssh

$ ssh-keygen -t rsa


3. 将生成的公钥加入到用于认证的公钥文件中:

$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys


4. 测试是否配置成功

$ ssh localhost

如果提示:connect to host localhost port 22: Connection refused,那么表示MAC系统没有设置运行ssh连接

进入系统偏好设置--> 共享--> 远程登录--> 所有用户


5. 配置HADOOP下的文件(进入目录:/usr/local/Cellar/hadoop/2.7.3/libexec/etc)

5.0 hadoop-env.sh文件

export JAVA_HOME="$(/usr/libexec/java_home)"           一般是已有的默认配置,不用修改,确认是配置好的即可

export HADOOP_HEAPSIZE=2000                                最大可用堆大小,默认是1000MB

可以参考 http://hadoop.apache.org/docs/r1.0.4/cn/cluster_setup.html 了解各个配置参数的意义


5.1 core-site.xml文件
<configuration> 
<property> 
<name>fs.defaultFS</name> 
<value>hdfs://localhost:9000</value> 
</property> 
</configuration>


5.2 hdfs-site.xml
<configuration> 
<property> 
<name>dfs.replication</name> 
<value>1</value> 
</property> 
</configuration>


5.3 mapred-site.xml
<configuration> 
<property> 
<name>mapreduce.framework.name</name> 
<value>yarn</value> 
</property> 
</configuration>

mapred-site.xml默认不存在,需要复制mapred-site.xml.template文件,然后修改


5.4 yarn-site.xml
<configuration>
<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>
</configuration>


运行HADOOP样例程序

[1] 进入hadoop目录

$ cd /usr/local/Cellar/hadoop/2.7.3/libexec

[2] 格式化文件系统

$ bin/hdfs namenode -format

[3] 启动NameNode和DataNode的守护进程。

$ sbin/start-dfs.sh

[4] 启动ResourceManager和NodeManager的守护进程。

$ sbin/start-yarn.sh

[5] 访问localhost:50070和localhost:8088测试是否正常。

[6] 创建hdfs目录(在hdfs的系统根目录下,不是本机的根目录):

$ bin/hdfs dfs -mkdir /user

$ bin/hdfs dfs -mkdir /user/jimmy

如果这个创建目录为域登录用户名,则dfs命令put的文件,默认放在该目录

[7] 拷贝一些文件(作为跑测试用例的数据,也可以自己创建几个文件)到input目录:

$ bin/hdfs dfs -put etc/hadoop input

[8] 运行样例:

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs[a-z.]+'

[9] 在localhost:50070中的Utilities标签下找到/user/robin目录,下载part-r-00000文件,可以看到其中内容如下所示:

  4 dfs.class
  4 dfs.audit.logger
  3 dfs.server.namenode.
  2 dfs.period
  2 dfs.audit.log.maxfilesize
  2 dfs.audit.log.maxbackupindex
  1 dfsmetrics.log
  1 dfsadmin
  1 dfs.servers
  1 dfs.replication
  1 dfs.file

[10] 停止yarn和hdfs

$ sbin/stop-yarn.sh
$ sbin/stop-dfs.sh

转:http://www.cnblogs.com/micrari/p/5716851.html

0 0
原创粉丝点击