底层的思考

来源：互联网发布：打印机怎么连接到网络编辑：程序博客网时间：2024/06/16 07:10

spark作为上层的一套数据处理的平台，底层嵌套的东西是hadoop的一套系统。

也就是说：是hdfs,yarn的那一套东西，无论是什么上层处理平台。

使用的都会是hdfs，hadoop，而我之前搭过两个节点的hadoop的集群，其中也是分为namenode ,datanode。

其中也是有mapreduce和hive等等。

底层的系统，linux是最底下的东西，

I will know better when I start to do this.

Ok ,now the problem lies here is the adaption issues,use cloudera version hadoop ,it will be easier

整个安装过程中给我唯一的感觉就是；乱，一个不兼容问题就可能让你之前所有的努力都泡汤。

是的，这是一次失败的安装。

Two options:

I have used the apache version of this,things become not so good these days.

配置集群我感觉很麻烦，主节点和slave节点，系统版本选择，ubuntu还是redhat，配置氛围太多的东西

1：安装JAVA 2:建立用户和组 3：配置SSH，SSH的等价性（这个地方和oracle RAC很像）4：安装hadoop，配环境变量

5：配置各种环境变量：hadoop-env.sh, conf/*-site.xml core-site.xml,hdfs-site.xml,mapreduce-site.xml

这里我的问题在于我发现下载的hadoop，还有linux的版本和文档中的都不一致。

6:格式化文件系统，

7：配网络，DNS，master和slave端的配置，这里又是一堆配置文件要改：conf/slave,

conf/hdfs-site.xml,mapred-site.xml,hdfs-site.xml

8：格式化文件系统，只需要启动主节点的hadoop就可以把slave节点上的mapreduce ,hdfs,都启动起来。

9：剩下的就是各种check。

one stop wrong ,all useless

Ok ,I'm going to try this again ,try this another method

I don't know whether I will be able to make it ,but I'm going to try

0 0