我的spark学习之路(一）

来源：互联网发布：nothing软件怎么样编辑：程序博客网时间：2024/06/05 03:55

2016.8.10

其实北京一年，我也一直在考虑我回所到底研究什么方向，但都只是停留在想想的层次，最终也没什么结果，回来老师问了我的想法说，学分布式计算吧，读博也可以，找工作也好找，文章也好发，我一想，这感情好啊，既符合我搞开发的兴趣，文章也不难发，毕业了还有两个选择，简直是三全其美啊。虽然老师给了我两个月的时间考虑，但是我基本就决定了，我一定要研究这个方向，于是就有了接下来的话题。

一、背景

1.北京打了一年酱油刚回来、什么都不会。
2.即将面临开题、压力山大。
3.老板告诉我学这个需要高智商，需要学很多东西，需要能坚持下去。

就在这样的背景下，开始了我的受虐之路

二、迷茫

第一天

自认为编程基础还不错的我就被虐的像个计算机小白一样。
以前你服务器接触的是什么类型，Linux?
没有，没接触过。
……
以前你都是用什么写网页的？
javascript。
…….
contOS你了解吗？
昨天在网上刚看到过。
……

那天我被自己并不能听的懂的英语视频毒害了一天。

（下午我终于拿到自己的电脑了，但是为什么是Linux操作系统？我悲剧的发现自己不知道怎么切换到中文输入法。）

第二天

这一天我被老师叫去继续向魏老师学习，我坐在旁边很迷茫的看着投影，不知道魏老师在干什么。后面我就自己上网查资料去了，看了无数的hadoop安装教程，但是最让我纠结的还是谁能告诉我centOS,ubuntu,hadoop，
docker，VM这些东西到底什么关系啊，

这里写图片描述
这是一个在centOS上安装hadoop的步骤，看到它我首先想的是：不是说安装hadoop么，怎么又成为CDH了，CDH又是什么鬼？然后是：安装centOS？centOS不是个操作系统么，怎么都安装vmware了才安装操作系统，没有操作系统vmware是怎么安装的？相比之下后面的几步倒是好理解了。
那天我被这样简单到白痴的问题折磨了一整天。

三、动手

第三天我在网上找了一个教程决定自己装。
http://tashan10.com/yong-dockerda-jian-hadoopwei-fen-bu-shi-ji-qun/
这是一个基于Docker安装hadoop分布式集群的教程，写的很详细，我几乎照着它一路就作下去了。遗憾的是这一天还是没弄好。（吐嘈一下，我觉得后面这两天限制的进度的最大因素是那里的网太慢了）
第四天，花了一上午的时间终于照着教程做完了，我不知道算不算做好了，拿去专门找魏老师认证了一下，当他告诉我应该算好了的时候，我的想法是好像也不难啊，为什么吴老师给我看的教程写的那么复杂。
晚上回到办公室把自己做的成果拿出来看了又看，激动之余发现我的结果好像和教程不太一样，我执行hadoop dfsadmin -report这个命令后虽然没有报错，但显示我的datanode为0 （正确的应该是2）为了这个问题我把原来做好的容器删了又做了一次，结果还是不对，最后查了好多资料发现原因是我没有修改两个slave的slaves文件。

hadoop布署好之后我想是不是该装spark了（因为我告诉老师hadoop之后他问了我一句：”Spark也装好了？”）。

有了hadoop的前车之鉴，找个教程直接开装spark。
先找的是马踏飞燕——奔跑在Docker上的Spark
虽然照着这个教程做完了，不过这个写的有点简单，中间我都是自己估摸的做的，最终也做完了，但打开spark-shell老是报错，一直找不到错误又重新找了个教程——spark1.6分布式集群环境搭建
最终照着这个教程完成了spark的布署

四、我想

回想了自己安装spark、hadoop的过程，虽然不是一帆风顺，但也不算历尽磨难。hadoop花了两天的时间，算上解决后面的小问题（没有datanode）不到三天的时间，而spark花了一天时间就装好了。
在动手做的过程中，前面让我迷茫的问题也迎刃而解了。看来任何事情还是要动手啊。
我想，前两天之所以后迷茫应该是干任何一行都要经历的入门阶段吧（虽然我现在也不算入门），回想自己刚开始学编程不也是那样。那个时候，听到的一些名词都是新的，每一点进步是千难万难。虽然如此，我想我会继续下去并努力取得成功。

五、再迷茫

hadoop、spark都装好了，但是在查资料的过程中，我又看到很多新名词，所以我再次迷茫了。yarn,zookeeper,hbase,hive,standalon这些都是什么鬼？和hadoop有什么关系？我要不要进一步了解？刚才和魏老师交流了，他让我先了解就行了，以后用的时候自然会知道。

时间仓促，保安都上来赶人了，就写到这儿吧。

1 0