hadoop 一些笔记

来源：互联网发布：修复图片的软件编辑：程序博客网时间：2024/05/07 17:22

用了一段时间了。将搭建环境和命令记录一些，为以后做过笔记，很多不对的，不讨论，可能下面的文字有错误，概不负责！！！

建立虚拟机，安装ubutu14 desktop版本，因为懒得下载server

用apk-get 安装java 7 还有maven3.3.9 ,还有那个谷歌protofuf-2.5.0

原先用源码编译，到后来实在找不到hadoop里面那个文件夹都是什么，使用只编译了一部分。通过编译了解了下载了一堆依赖工具包。

提起这个我想骂人！！！狗东西，太依赖了。还tmd有版本要求，恨！

所以直接下载hadoop-2.7.0的编译好的包，开始其实没看的这个包，不然我才懒得去编译一堆我不想了解的东西。（装了费时间，还本末倒置）

安装好，export很多东西，忘记了。好像java和hadooop的，目的就是让这个东西在任何目录都可以运行命令！！狗日的！

修改cor-site.xml和另一个xml文件（忘记什么名字了，好像是hdfs-size）就是配置hdfs和节点，另外还有修改那个hadoop-env.sh(export JAVA_HOME=/usr/lib/jvm/java-7-oracle)就是这个命令。

启动 /sbin/start-dfs.sh

用jps

可以看到几个服务，我自己理解为服务的。

jsp

namenote

secoundnamenote

datanote

好像就这个几个，因为配置的是伪集群。使用没有那个yarm和哪个all的sh.

http://dblab.xmu.edu.cn/是个好地方！

命令好像用到

hadoop fs

hadoop dfs

hadf dfs

---------------------

hadoop fs -put log.txt /user/hadoop/log_kpi/log.txt

hdfs -ls /user

hadoop fs -rmr -sikpTriash /user/hdfs/log_kpi/ip 删除非空文件，因为第二次运行，数据的输出位置不能为空

hadoop fs -cat .......

修改了下面blog中关于什么ip访问日志统计的例子。用的2个包，一个什么lib/hadoop-common-2.7.0.jar

另一个：/lib/hadoop-mapreduce-client-core-2.7.0.jar都是2.7.0

下面blog中的那个日志分析的例子用的早期版本，其实代码没怎么修改，好像就是一个文件改了，其他基本没改。

不能直接运行的说基本的原因是：他给的例子中输入没写文件名就是那个数据文件log.txt。。。。。。。我着实郁闷很多

关键是对java不了解啊。。。。

还有就是eclipse打包成jar 我也不会最好找到有个生成什么main方法的选项，这才勉强运行了这个jar,后来才知道，要是不设置这个选项，可以通过写包名com.myhadoopy.mk.kpi这样的方式运行类里面的main

hadfs jar myhadoop.jar

没有输入也没输出参数，因为都写在代码里了，所以连所谓的什么main方法都没写，不懂java，累啊！！！

记得上面那个删除-rmr 可以删除非空文件夹，因为要多次运行，所以要删！！！还有下面那个blog没配置回收站，所以删除还有个skiptra..什么的参数

不会linux累啊！！！不会英语单词累啊！！！！

慢慢的都是血的代价！够日的！！！！

http://blog.fens.me/hadoop-mapreduce-log-kpi/

0 0