hadoop学习——Pig

来源：互联网发布：二叉树的遍历算法图解编辑：程序博客网时间：2024/05/22 06:45

## Pig ##

pig是一种hadoop的探索大规模数据集轻量级脚本语言，最初由雅虎推出，可以非常方便的处理hdfs和hbase的数据。mapreduce的一个主要缺点就是开发周期太长了。我们要编写mapper和reducer，然后对代码进行编译打出jar包，提交到本地的jvm或者是hadoop集群上，最后获取结果，这个过程是非常耗时的，pig的强大之处就是只要几行piglatin代码就能处理tb级别的数据。pig提供了多个命令用于检查和处理程序中的数据结构，pig的一个很有用的特性是支撑在输入数据中有代表性的一个小的数据集上试运行。

pig为大型数据集的处理提供了更高的抽象。Mapreducer能够让我们自己定义连续执行的map和reduce函数，但是数据处理往往需要很多的mapreduce过程才能实现，所以将数据处理要求改写成mapreducer模式是很复杂的。pig提供了更加丰富的数据结构，一般都是多值和嵌套的数据结构，pig还提供一套强大的数据交换操作，join操作，但是pig并不适合处理所有的数据处理任务。和mapreduce一样是为了批处理设计的，如果想查询只涉及一小部分数据，pig要扫描整个数据集或者很大一部分。

pig包括两部分1 用于描述数据流的语言piglatin2 用于运行piglatin程序的执行环境。一个是本地的jvm执行环境，一个是hadoop集群上的分布式执行环境。

0 0