hadoop支持的数据类型

来源:互联网 发布:淘宝阶层 编辑:程序博客网 时间:2024/06/05 17:31

mapreduce的过程是:

map:(k1,v1)------list(k2,v2)

reduce:(k2,list(v2))------list(k3,v3)

在map和reduce的过渡阶段,map出的结果中,key相同的数据会被分配到集群中的同一个节点。

(在map与reduce这两个阶段之间还有一个partitioner阶段)


在mapreduce中value的类型必须为Writable类或者WritableComparable<T>接口的子类

key的类型必须为WritableComparable类的子类。

WritableComparable类为Writable和java.lang.Comparable<T>的子类,这是因为key在reduce阶段会被分类,而value只是简单的传递罢了。

一个实例类继承了WritableComparable<T>接口

import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class Edge implements WritableComparable<Edge> {private String departureNode;private String arrivalNode;public String getDepartureNode() {return this.departureNode;}@Overridepublic void write(DataOutput out) throws IOException {// TODO Auto-generated method stubout.writeUTF(departureNode);out.writeUTF(arrivalNode);}@Overridepublic void readFields(DataInput in) throws IOException {// TODO Auto-generated method stubdepartureNode = in.readUTF();arrivalNode = in.readLine();}@Overridepublic int compareTo(Edge o) {// TODO Auto-generated method stubreturn (departureNode.compareTo(o.departureNode) != 0) ? departureNode.compareTo(o.departureNode) : arrivalNode.compareTo(o.arrivalNode);}}

Edge类有可能代表的是两座城市之间的航线。



原创粉丝点击