hadoop 程序在运行时 reduce过程卡在某个进度不动的问题
来源:互联网 发布:灵山大佛网络取票 编辑:程序博客网 时间:2024/05/21 17:31
今天写好hadoop 程序之后,进行线上测试,驶入数据为一个hive表的文件,location到了一个hdfs目录下,然后跑hadoop的过程中,map阶段没有出现问题,但是每次到了reduce阶段,进度都卡在33%不动了,刚开始以为是集群问题,后来重新启动了几次任务,都是这种情况。
可能的情况1:
后来在stackoverflow上找到了答案,这是hadoop上数据倾斜造成的问题(我的hive表使用了orde by,所以是按照字段排序,如果将字段作为marpeduce的key,那么某一台机器上的reduce大部分都是同一个key,这违背了mapreduce并发的思想,造成其他reduce一直等的情况),所以卡死。具体数据倾斜解释请看~(数据倾斜解释),解决办法:在生成hive表的时候取消order by命令。但是并没有用,照样在33%卡死。
可能的情况2:
我增加了redece的个数,job.setNumReduceTasks(1000);跑通了。
0 0
- hadoop 程序在运行时 reduce过程卡在某个进度不动的问题
- hadoop日志【3】---进度不动的reduce过程
- Reduce卡在25%不动了
- 程序在运行过程中内存的分配问题
- hadoop——在命令行下编译并运行map-reduce程序
- 在VC++程序中显示存储过程的执行进度
- 如何使编写的java程序在hadoop 2.2中运行的完整过程
- 关于hadoop的reduce百分比进度说明
- 在unity中调用某个程序运行
- 在Eclipse上运行Hadoop程序,DistributedCache找不到文件缓存的问题
- azkaban上传时卡在那不动
- 为何HttpURLConnection上传文件进度显示传完了,但是却一直卡在那不动了
- 在命令行下运行第一个hadoop的程序
- python版的mapreduce程序运行在hadoop上
- 在windows下运行Hadoop程序的环境配置
- 在windows7下Eclipse中运行Hadoop的WordCount程序
- hive任务卡在个别reduce的问题分析
- hive任务卡在个别reduce的问题分析
- Java中的clone方法之浅拷贝与深拷贝
- Android TV开发总结(五)TV上屏幕适配总结
- Elastic-Job使用限制
- spring事物异常回滚
- patch
- hadoop 程序在运行时 reduce过程卡在某个进度不动的问题
- SQL性能优化
- Swift的JFNetworkTool网络请求工具类
- Firefox浏览器修改背景颜色为豆沙绿
- 第三方登录的原理
- log4cplus库(一)(简单使用)
- scala 处理json字符串采用模式匹配
- linux的文件系统的管理
- win7系统安装python3.5.2出现0x80240017