hadoop 一些笔记

来源:互联网 发布:修复图片的软件 编辑:程序博客网 时间:2024/05/07 17:22

用了一段时间了。将搭建环境和命令记录一些,为以后做过笔记,很多不对的,不讨论,可能下面的文字有错误,概不负责!!!

建立虚拟机,安装ubutu14 desktop版本,因为懒得下载server

用apk-get 安装java 7 还有maven3.3.9 ,还有那个谷歌protofuf-2.5.0 

原先用源码编译,到后来实在找不到hadoop里面那个文件夹都是什么,使用只编译了一部分。通过编译了解了下载了一堆依赖工具包。

提起这个我想骂人!!!狗东西,太依赖了。还tmd有版本要求,恨!

所以直接下载hadoop-2.7.0的编译好的包,开始其实没看的这个包,不然我才懒得去编译一堆我不想了解的东西。(装了费时间,还本末倒置)

安装好,export很多东西,忘记了。好像java和hadooop的,目的就是让这个东西在任何目录都可以运行命令!!狗日的!

修改cor-site.xml和另一个xml文件(忘记什么名字了,好像是hdfs-size)就是配置hdfs和节点,另外还有修改那个hadoop-env.sh(export JAVA_HOME=/usr/lib/jvm/java-7-oracle)就是这个命令。

启动 /sbin/start-dfs.sh

用jps

可以看到几个服务,我自己理解为服务的。

jsp

namenote

secoundnamenote

datanote

好像就这个几个,因为配置的是伪集群。使用没有那个yarm和哪个all的sh.

http://dblab.xmu.edu.cn/是个好地方!

命令好像用到

hadoop fs

hadoop dfs

hadf dfs

---------------------

hadoop fs -put log.txt /user/hadoop/log_kpi/log.txt

hdfs -ls /user

hadoop fs -rmr -sikpTriash /user/hdfs/log_kpi/ip    删除非空文件,因为第二次运行,数据的输出位置不能为空

hadoop fs -cat .......

修改了下面blog中关于什么ip访问日志统计的例子。用的2个包,一个什么lib/hadoop-common-2.7.0.jar

另一个:/lib/hadoop-mapreduce-client-core-2.7.0.jar都是2.7.0

下面blog中的那个日志分析的例子用的早期版本,其实代码没怎么修改,好像就是一个文件改了,其他基本没改。

不能直接运行的说基本的原因是:他给的例子中输入没写文件名就是那个数据文件log.txt。。。。。。。我着实郁闷很多

关键是对java不了解啊。。。。

还有就是eclipse打包成jar 我也不会最好找到有个生成 什么main方法的选项,这才勉强运行了这个jar,后来才知道,要是不设置这个选项,可以通过写包名com.myhadoopy.mk.kpi这样的方式运行类里面的main

hadfs jar myhadoop.jar

没有输入也没输出参数,因为都写在代码里了,所以连所谓的什么main方法都没写,不懂java,累啊!!!

记得上面那个删除-rmr 可以删除非空文件夹,因为要多次运行,所以要删!!!还有下面那个blog没配置回收站,所以删除还有个skiptra..什么的参数

不会linux累啊!!!不会英语单词累啊!!!!

慢慢的都是血的代价!够日的!!!!

http://blog.fens.me/hadoop-mapreduce-log-kpi/


0 0
原创粉丝点击