我的spark学习之路(一)

来源:互联网 发布:nothing软件怎么样 编辑:程序博客网 时间:2024/06/05 03:55

2016.8.10

其实北京一年,我也一直在考虑我回所到底研究什么方向,但都只是停留在想想的层次,最终也没什么结果,回来老师问了我的想法说,学分布式计算吧,读博也可以,找工作也好找,文章也好发,我一想,这感情好啊,既符合我搞开发的兴趣,文章也不难发,毕业了还有两个选择,简直是三全其美啊。虽然老师给了我两个月的时间考虑,但是我基本就决定了,我一定要研究这个方向,于是就有了接下来的话题。

一、背景

1.北京打了一年酱油刚回来、什么都不会。
2.即将面临开题、压力山大。
3.老板告诉我学这个需要高智商,需要学很多东西,需要能坚持下去。

就在这样的背景下,开始了我的受虐之路

二、迷茫

第一天

自认为编程基础还不错的我就被虐的像个计算机小白一样。
以前你服务器接触的是什么类型,Linux?
没有,没接触过。
……
以前你都是用什么写网页的?
javascript。
…….
contOS你了解吗?
昨天在网上刚看到过。
……

那天我被自己并不能听的懂的英语视频毒害了一天。

(下午我终于拿到自己的电脑了,但是为什么是Linux操作系统?我悲剧的发现自己不知道怎么切换到中文输入法。)

第二天

这一天我被老师叫去继续向魏老师学习,我坐在旁边很迷茫的看着投影,不知道魏老师在干什么。后面我就自己上网查资料去了,看了无数的hadoop安装教程,但是最让我纠结的还是谁能告诉我centOS,ubuntu,hadoop,
docker,VM这些东西到底什么关系啊,

这里写图片描述
这是一个在centOS上安装hadoop的步骤,看到它我首先想的是:不是说安装hadoop么,怎么又成为CDH了,CDH又是什么鬼?然后是:安装centOS?centOS不是个操作系统么,怎么都安装vmware了才安装操作系统,没有操作系统vmware是怎么安装的?相比之下后面的几步倒是好理解了。
那天我被这样简单到白痴的问题折磨了一整天。

三、动手

第三天我在网上找了一个教程决定自己装。
http://tashan10.com/yong-dockerda-jian-hadoopwei-fen-bu-shi-ji-qun/
这是一个基于Docker安装hadoop分布式集群的教程,写的很详细,我几乎照着它一路就作下去了。遗憾的是这一天还是没弄好。(吐嘈一下,我觉得后面这两天限制的进度的最大因素是那里的网太慢了)
第四天,花了一上午的时间终于照着教程做完了,我不知道算不算做好了,拿去专门找魏老师认证了一下,当他告诉我应该算好了的时候,我的想法是好像也不难啊,为什么吴老师给我看的教程写的那么复杂。
晚上回到办公室把自己做的成果拿出来看了又看,激动之余发现我的结果好像和教程不太一样,我执行hadoop dfsadmin -report这个命令后虽然没有报错,但显示我的datanode为0 (正确的应该是2)为了这个问题我把原来做好的容器删了又做了一次,结果还是不对,最后查了好多资料发现原因是我没有修改两个slave的slaves文件。

hadoop布署好之后我想是不是该装spark了(因为我告诉老师hadoop之后他问了我一句:”Spark也装好了?”)。

有了hadoop的前车之鉴,找个教程直接开装spark。
先找的是马踏飞燕——奔跑在Docker上的Spark
虽然照着这个教程做完了,不过这个写的有点简单,中间我都是自己估摸的做的,最终也做完了,但打开spark-shell老是报错,一直找不到错误又重新找了个教程——spark1.6分布式集群环境搭建
最终照着这个教程完成了spark的布署

四、我想

回想了自己安装spark、hadoop的过程,虽然不是一帆风顺,但也不算历尽磨难。hadoop花了两天的时间,算上解决后面的小问题(没有datanode)不到三天的时间,而spark花了一天时间就装好了。
在动手做的过程中,前面让我迷茫的问题也迎刃而解了。看来任何事情还是要动手啊。
我想,前两天之所以后迷茫应该是干任何一行都要经历的入门阶段吧(虽然我现在也不算入门),回想自己刚开始学编程不也是那样。那个时候,听到的一些名词都是新的,每一点进步是千难万难。虽然如此,我想我会继续下去并努力取得成功。

五、再迷茫

hadoop、spark都装好了,但是在查资料的过程中,我又看到很多新名词,所以我再次迷茫了。yarn,zookeeper,hbase,hive,standalon这些都是什么鬼?和hadoop有什么关系?我要不要进一步了解?刚才和魏老师交流了,他让我先了解就行了,以后用的时候自然会知道。

时间仓促,保安都上来赶人了,就写到这儿吧。

1 0
原创粉丝点击