{转}Hadoop之使用python实现数据集合间join操作

来源：互联网发布：好用的眼部精华知乎编辑：程序博客网时间：2024/06/06 13:16

Hadoop之使用python实现数据集合间join操作

{转}疯狂的蚂蚁的博客 http://www.crazyant.net/1112.html

hadoop之steaming介绍

hadoop有个工具叫做steaming，能够支持python、shell、C++、PHP等其他任何支持标准输入stdin及标准输出stdout的语言，其运行原理可以通过和标准java的map-reduce程序对比来说明：

使用原生java语言实现Map-reduce程序

hadoop准备好数据后，将数据传送给java的map程序
java的map程序将数据处理后，输出O1
hadoop将O1打散、排序，然后传给不同的reduce机器
每个reduce机器将传来的数据传给reduce程序
reduce程序将数据处理，输出最终数据O2

借助hadoop streaming使用python语言实现Map-reduce程序

hadoop准备好数据后，将数据传送给java的map程序
java的map程序将数据处理成“键/值”对，并传送给python的map程序
python的map程序将数据处理后，将结果传回给java的map程序
java的map程序将数据输出为O1
hadoop将O1打散、排序，然后传给不同的reduce机器
每个reduce机器将传来的数据处理成“键/值”对，并传送给python的reduce程序
python的reduce程序将数据处理后，将结果返回给java的reduce程序
java的reduce程序将数据处理，输出最终数据O2

上面红色表示map的对比，蓝色表示reduce的对比，可以看出streaming程序多了一步中间处理，这样说来steaming程序的效率和性能应该低于java版的程序，然而python的开发效率、运行性能有时候会大于java，这就是streaming的优势所在。

hadoop之实现集合join的需求

hadoop是用来做数据分析的，大都是对集合进行操作，因此该过程中将集合join起来使得一个集合能得到另一个集合对应的信息的需求非常常见。

比如以下这个需求，有两份数据：学生信息（学号，姓名）和学生成绩（学号、课程、成绩），特点是有个共同的主键“学号”，现在需要将两者结合起来得到数据（学号，姓名，课程，成绩），计算公式：

（学号，姓名） join （学号，课程，成绩）= （学号，姓名，课程，成绩）

数据事例1-学生信息：

学号sno姓名name01name102name203name304name4

数据事例2:-学生成绩：

学号sno课程号courseno成绩grade010180010290020182020295

期待的最终输出：

学号sno姓名name课程courseno成绩grade01name1018001name1029002name2018202name20295

实现join的注意点和易踩坑总结

如果你想写一个完善健壮的map reduce程序，我建议你首先弄清楚输入数据的格式、输出数据的格式，然后自己手动构建输入数据并手动计算出输出数据，这个过程中你会发现一些写程序中需要特别处理的地方：

实现join的key是哪个，是1个字段还是2个字段，本例中key是sno，1个字段
每个集合中key是否可以重复，本例中数据1不可重复，数据2的key可以重复
每个集合中key的对应值是否可以不存在，本例中有学生会没成绩，所以数据2的key可以为空

第1条会影响到hadoop启动脚本中key.fields和partition的配置，第2条会影响到map-reduce程序中具体的代码实现方式，第3条同样影响代码编写方式。

hadoop实现join操作的思路

具体思路是给每个数据源加上一个数字标记label，这样hadoop对其排序后同一个字段的数据排在一起并且按照label排好序了，于是直接将相邻相同key的数据合并在一起输出就得到了结果。

1、 map阶段：给表1和表2加标记，其实就是多输出一个字段，比如表一加标记为0，表2加标记为2；

2、 partion阶段：根据学号key为第一主键，标记label为第二主键进行排序和分区

3、 reduce阶段：由于已经按照第一主键、第二主键排好了序，将相邻相同key数据合并输出

hadoop使用python实现join的map和reduce代码

mapper.py的代码：

# -*- coding: utf-8 -*-#Mapper.py#来自疯狂的蚂蚁www.crazyant.netimport osimport sys#mapper脚本def mapper():#获取当前正在处理的文件的名字，这里我们有两个输入文件#所以要加以区分filepath = os.environ["map_input_file"]filename = os.path.split(filepath)[-1]for line in sys.stdin:if line.strip()=="":continuefields = line[:-1].split("\t")sno = fields[0]#以下判断filename的目的是不同的文件有不同的字段，并且需加上不同的标记if filename == 'data_info':name = fields[1]#下面的数字'0'就是为数据源1加上的统一标记print '\t'.join((sno,'0',name))elif filename == 'data_grade':courseno = fields[1]grade = fields[2]#下面的数字'1'就是为数据源1加上的统一标记print '\t'.join((sno,'1',courseno,grade))if __name__=='__main__':mapper()

# -*- coding: utf-8 -*-

#Mapper.py

#来自疯狂的蚂蚁www.crazyant.net

import os

importsys

#mapper脚本

def mapper():

#获取当前正在处理的文件的名字，这里我们有两个输入文件

#所以要加以区分

filepath=os.environ["map_input_file"]

filename=os.path.split(filepath)[-1]

forlineinsys.stdin:

ifline.strip()=="":

continue

fields=line[:-1].split("\t")

sno=fields[0]

#以下判断filename的目的是不同的文件有不同的字段，并且需加上不同的标记

iffilename=='data_info':

name=fields[1]

#下面的数字'0'就是为数据源1加上的统一标记

print'\t'.join((sno,'0',name))

eliffilename=='data_grade':

courseno=fields[1]

grade=fields[2]

#下面的数字'1'就是为数据源1加上的统一标记

print'\t'.join((sno,'1',courseno,grade))

if__name__=='__main__':

mapper()

reducer的代码：

# -*- coding: utf-8 -*-#reducer.py#来自疯狂的蚂蚁www.crazyant.netimport sysdef reducer():#为了记录和上一个记录的区别，用lastsno记录上个snolastsno = ""for line in sys.stdin:if line.strip()=="":continuefields = line[:-1].split("\t")sno = fields[0]'''处理思路：遇见当前key与上一条key不同并且label=0，就记录下来name值，当前key与上一条key相同并且label==1，则将本条数据的courseno、grade联通上一条记录的name一起输出成最终结果'''if sno != lastsno:name=""#这里没有判断label==1的情况，#因为sno!=lastno,并且label=1表示该条key没有数据源1的数据if fields[1]=="0":name=fields[2]elif sno==lastno:#这里没有判断label==0的情况，#因为sno==lastno并且label==0表示该条key没有数据源2的数据if fields[2]=="1":courseno=fields[2]grade=fields[3]if name:print '\t'.join((lastsno,name,courseno,grade))lastsno = snoif __name__=='__main__':reducer()

# -*- coding: utf-8 -*-

#reducer.py

#来自疯狂的蚂蚁www.crazyant.net

import sys

def reducer():

#为了记录和上一个记录的区别，用lastsno记录上个sno

lastsno=""

forlineinsys.stdin:

ifline.strip()=="":

continue

fields=line[:-1].split("\t")

sno=fields[0]

'''

处理思路：

遇见当前key与上一条key不同并且label=0，就记录下来name值，

当前key与上一条key相同并且label==1，则将本条数据的courseno、

grade联通上一条记录的name一起输出成最终结果

'''

ifsno!=lastsno:

name=""

#这里没有判断label==1的情况，

#因为sno!=lastno,并且label=1表示该条key没有数据源1的数据

iffields[1]=="0":

name=fields[2]

elifsno==lastno:

#这里没有判断label==0的情况，

#因为sno==lastno并且label==0表示该条key没有数据源2的数据

iffields[2]=="1":

courseno=fields[2]

grade=fields[3]

ifname:

print'\t'.join((lastsno,name,courseno,grade))

lastsno=sno

if__name__=='__main__':

reducer()

使用shell脚本启动hadoop程序的方法：

#先删除输出目录~/hadoop-client/hadoop/bin/hadoop fs -rmr /hdfs/jointest/output#来自疯狂的蚂蚁www.crazyant.net#注意，下面配置中的环境值每个人机器不一样~/hadoop-client/hadoop/bin/hadoop streaming \-D mapred.map.tasks=10 \-D mapred.reduce.tasks=5 \-D mapred.job.map.capacity=10 \-D mapred.job.reduce.capacity=5 \-D mapred.job.name="join--sno_name-sno_courseno_grade" \-D num.key.fields.for.partition=1 \-D stream.num.map.output.key.fields=2 \-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \-input "/hdfs/jointest/input/*" \-output "/hdfs/jointest/output" \-mapper "python26/bin/python26.sh mapper.py" \-reducer "python26/bin/python26.sh reducer.py" \-file "mapper.py" \-file "reducer.py" \-cacheArchive "/share/python26.tar.gz#python26"#看看运行成功没，若输出0则表示成功了echo $?

#先删除输出目录

~/hadoop-client/hadoop/bin/hadoopfs-rmr/hdfs/jointest/output

#来自疯狂的蚂蚁www.crazyant.net

#注意，下面配置中的环境值每个人机器不一样

~/hadoop-client/hadoop/bin/hadoopstreaming\

-Dmapred.map.tasks=10\

-Dmapred.reduce.tasks=5\

-Dmapred.job.map.capacity=10\

-Dmapred.job.reduce.capacity=5\

-Dmapred.job.name="join--sno_name-sno_courseno_grade"\

-Dnum.key.fields.for.partition=1\

-Dstream.num.map.output.key.fields=2\

-partitionerorg.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner\

-input"/hdfs/jointest/input/*"\

-output"/hdfs/jointest/output"\

-mapper"python26/bin/python26.sh mapper.py"\

-reducer"python26/bin/python26.sh reducer.py"\

-file"mapper.py"\

-file"reducer.py"\

-cacheArchive"/share/python26.tar.gz#python26"

#看看运行成功没，若输出0则表示成功了

echo$?

可以自己手工构造输入输出数据进行测试，本程序是验证过的。

{转}Hadoop之使用python实现数据集合间join操作

Hadoop之使用python实现数据集合间join操作

hadoop之steaming介绍

使用原生java语言实现Map-reduce程序

借助hadoop streaming使用python语言实现Map-reduce程序

hadoop之实现集合join的需求

实现join的注意点和易踩坑总结

hadoop实现join操作的思路

hadoop使用python实现join的map和reduce代码

更多需要注意的地方