Hadoop使用技巧
来源:互联网 发布:淘宝卖家的支付宝红包 编辑:程序博客网 时间:2024/06/05 10:21
如果Hadoop出现问题,找到Hadoop提供的网址查看进度。然后看被kill掉的程序中的:
找里面的error log,看看问题出在哪里?
使用Hadoop写脚本的时候最好写个main函数,然后把其他东西全都包装成函数。最后运行main。
至于hadoop hce跟steaming不一样,是适配C++的Hadoop。所以第一个参数是要运行的c++文件,然后后面就是输入参数了。但是要注意,args[1] = 1而不是segment。而args[0]是c++文件的路径,这点跟Java不同。
hadoop多路输出:
http://www.cnblogs.com/shapherd/archive/2012/12/21/2827860.html
启动脚本中需要指定-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleTextOutputFormat或者-outputformat org.apache.hadoop.mapred.lib.SuffixMultipleSequenceFileOutputFormat,
所有标准输出的value中都要加上 #X后缀,X代表A-Z, 不然会报invalid suffix错误
hadoop的排序是采用二进制的方式进行排序的跟普通的Linux的sort有一点小小的差异性,如果你发现两个相同字段居然没有排在一起,那就一定是因为其中一个字段可能后面跟了“\3”"\t"这种隐形字符。
例如,mimida 和 mimida\3可能不会排在一起。总之需要注意的是对中文进行排序时需要注意。而且默认的是\t。
字符串匹配的时候一定要把那些隐形字符\t \3去掉再进行匹配。因为你看上去都是一样的mimida,如果其中一个带上了一个\3就会让你debug半天!
hadoop会自动在每一行mapper的输出上加\t\n
也就是说自动会换行,自动会在最后一行加一个\t。
所以如果reducer不是用\t匹配的话一定要把\t和\n去掉
小知识:
args是C++传进去的参数,0是文件的路径,1是第一个参数,2是第二个参数,这点跟Java不同。
如果只有单行数据,hadoop会在最后一行自动加\t。做数据统计的时候注意啊,如果只有一列一定要清掉\t啊!!!!!
- Hadoop使用技巧
- Hadoop中的集群配置和使用技巧
- Hadoop中的集群配置和使用技巧
- Hadoop中的集群配置和使用技巧
- Hadoop中的集群配置和使用技巧
- Hadoop中的集群配置和使用技巧
- hadoop使用过程中的一些小技巧
- Hadoop中的集群配置和使用技巧
- Hadoop MapReduce技巧
- Hadoop中的集群配置和使用技巧——分布式计算开源框架Hadoop入门实践(二)
- 使用 Hadoop
- hadoop使用
- Hadoop使用
- hadoop相关的一些技巧
- 【技巧】UE使用技巧
- hadoop 使用 -- spring-data-hadoop
- 使用技巧
- 两条常用的Hadoop配置技巧
- XAMPP等php集成环境无go-pear.bat的解决方法
- 个人学习记录
- uva 11137 Ingenuous Cubrency (完全背包)
- config Tomcat service on ubuntu14 server as daemon thread
- 我希望自己是什么样的程序员技术达人[切勿浮沙筑塔]
- Hadoop使用技巧
- HibernateDaoSuppor源码
- [LeetCode]House Robber
- 【C语言】用结构体数组指针完成:有三个学生信息,存放在结构体数组中,要求输出全部信息
- Fileupload上传文件修改文件名字
- 两个隔离的网卡配置
- xpages客户端安装插件demo
- LeetCode Department Top Three Salaries
- TCP如何保证它的通信的可靠性