关于MapReduce

来源:互联网 发布:上海 游戏程序员招聘 编辑:程序博客网 时间:2024/05/16 04:24
1.所有数据都需要输出的情况 ,Reduce的个数设置为0
特定数据抽取对于Hadoop来说是非常简单的,对于所有数据都需要输出的情况,直接在Map中将日志解析出的结果中需要的字段进行输出就可以了。而对于只需要输出满足特定条件的数据,则需要在程序启动之时将这些条中需要的数值或者某些变量等添加到Hadoop启动的任务参数的配置中,而在Map启动之前,在其Configure函数中解析出这些参数,并将这些参数存储在全局变量中以便在Map中使用这些数值。在之后的Map操作中,只需要将满足该要求的数据进行输出即可。这种操作可以不使用Reduce操作,直接让Map输出最终结果即可,最简单的实现方法就是将Reduce的个数设置为0。Hadoop就会将Map的输出作为最终的结果进行输出。
2.yarn运行程序是提示running in uber mode : false
-->Hadoop的小作业模式, 数据量小非常节约时间
3.python里,输入为csv文件的reduce输出不正确:
今天把一个列表转换成字符串输出的时候出现了UnicodeEncodeError:'ascii' codec can't encode characters in position 32-34: ordinalnot in range(128)问题,使用的是ulipad编译器。  
解决方法1: 在开头加上
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )  
解决方法2: 使用cmd运行python程序,能正常显示结果



0 0
原创粉丝点击