底层的思考

来源:互联网 发布:打印机怎么连接到网络 编辑:程序博客网 时间:2024/06/16 07:10

spark作为上层的一套数据处理的平台,底层嵌套的东西是hadoop的一套系统。

也就是说:是hdfs,yarn的那一套东西,无论是什么上层处理平台。

使用的都会是hdfs,hadoop,而我之前搭过两个节点的hadoop的集群,其中也是分为namenode ,datanode。

其中也是有mapreduce和hive等等。


底层的系统,linux是最底下的东西,



I will know better when I start to do this.


Ok ,now the problem lies here is the adaption issues,use cloudera version hadoop ,it will be easier




整个安装过程中给我唯一的感觉就是;乱,一个不兼容问题就可能让你之前所有的努力都泡汤。

是的,这是一次失败的安装。

Two options:

I have used the apache version of this,things become not so good these days.


配置集群我感觉很麻烦,主节点和slave节点,系统版本选择,ubuntu还是redhat,配置氛围太多的东西

1:安装JAVA 2:建立用户和组 3:配置SSH,SSH的等价性(这个地方和oracle RAC很像)4:安装hadoop,配环境变量

5:配置各种环境变量:hadoop-env.sh, conf/*-site.xml core-site.xml,hdfs-site.xml,mapreduce-site.xml

这里我的问题在于我发现下载的hadoop,还有linux的版本和文档中的都不一致。


6:格式化文件系统,

7:配网络,DNS,master和slave端的配置,这里又是一堆配置文件要改:conf/slave,

conf/hdfs-site.xml,mapred-site.xml,hdfs-site.xml


8:格式化文件系统,只需要启动主节点的hadoop就可以把slave节点上的mapreduce ,hdfs,都启动起来。

9:剩下的就是各种check。




one stop wrong ,all useless





Ok ,I'm going to try this again ,try this another method 

I don't know whether I will be able to make it ,but I'm going to try

0 0
原创粉丝点击