这些天学习hadoop的一些记录

来源:互联网 发布:儿童图书软件 编辑:程序博客网 时间:2024/05/16 01:36

安装环境:centos6.4 hadoop2.5.1

eclipse运行hadoop中wordcount实例程序:参照:
http://www.cnblogs.com/kinglau/p/3802705.html

eclipse运行wordcount时遇到一下问题
Hadoop Problem : Wrong FS: hdfs://localhost:9000/output, expected: file:///
从以下:
http://blog.csdn.net/huangjing_whlg/article/details/39341643
http://blog.csdn.net/Hipercomer/article/details/40925453
用到第2个方法将2个xml文件放入eclipse中workspace当前项目的bin目录下即可



终端中命令编译wordcount
参照:
http://blog.csdn.net/time_runner/article/details/38658867

先创建目录bin/hdfs dfs -mkdir /user/i/wordcount/input

将file1,2放入input文件夹中。

编译命令如下

bin/hadoop jar wc.jar WordCount /user/i/wordcount/input /user/i/wordcount/output


编译hadoop源码并关联到eclipse上

http://www.aboutyun.com/thread-8211-1-1.html

eclipse引用该类的类搜索:
在类名上点击右键,选Reference->Workingspace或者直接快捷键Ctrl+Shift+G


PutMerge类将多个文件合并然后输出到一个文件上

代码来自于hadoop实战作者Chuck Lam 中的第3章。

发现问题如下:

其输入流能够读取文件目录下的隐藏文件,会导致最后结果与预期不符合.

另外其输出文件我只能写到本地.



//profile中文件,home先声明。在放入path,最后export
hbase安装参照
http://blog.csdn.net/zhengbo0/article/details/38524149

hbase command找不到
source /etc/profile问题
http://bbs.csdn.net/topics/390742360
.bashrc 添加source /etc/profile


Hadoop源码解析:TextInputFormat如何处理跨split的行
http://blog.csdn.net/bluishglc/article/details/9380087


0 0
原创粉丝点击