hadoop学习——Pig
来源:互联网 发布:二叉树的遍历算法图解 编辑:程序博客网 时间:2024/05/22 06:45
## Pig ##
pig是一种hadoop的探索大规模数据集轻量级脚本语言,最初由雅虎推出,可以非常方便的处理hdfs和hbase的数据。mapreduce的一个主要缺点就是开发周期太长了。我们要编写mapper和reducer,然后对代码进行编译打出jar包,提交到本地的jvm或者是hadoop集群上,最后获取结果,这个过程是非常耗时的,pig的强大之处就是只要几行piglatin代码就能处理tb级别的数据。pig提供了多个命令用于检查和处理程序中的数据结构,pig的一个很有用的特性是支撑在输入数据中有代表性的一个小的数据集上试运行。
pig为大型数据集的处理提供了更高的抽象。Mapreducer能够让我们自己定义连续执行的map和reduce函数,但是数据处理往往需要很多的mapreduce过程才能实现,所以将数据处理要求改写成mapreducer模式是很复杂的。pig提供了更加丰富的数据结构,一般都是多值和嵌套的数据结构,pig还提供一套强大的数据交换操作,join操作,但是pig并不适合处理所有的数据处理任务。和mapreduce一样是为了批处理设计的,如果想查询只涉及一小部分数据,pig要扫描整个数据集或者很大一部分。
pig包括两部分1 用于描述数据流的语言piglatin2 用于运行piglatin程序的执行环境。一个是本地的jvm执行环境,一个是hadoop集群上的分布式执行环境。
0 0
- hadoop学习——Pig
- Hadoop学习笔记—16.Pig框架学习
- Hadoop学习之Pig
- Hadoop-Pig 学习笔记
- Hadoop之——Pig框架
- Hadoop(六)——子项目Pig
- Hadoop(六)——子项目Pig
- Hadoop(六)——子项目Pig
- 基于hadoop学习Apache Pig
- Hadoop Pig学习笔记:各种SQL在PIG中实现
- Hadoop Pig学习笔记 各种SQL在PIG中实现
- Hadoop Pig学习 各种SQL在PIG中实现
- Hadoop Pig学习笔记 各种SQL在PIG中实现
- Hadoop、Pig、Hive、NOSQL 学习资源收集
- Mapr 安装hadoop的组件(九)——安装Pig
- hadoop pig
- hadoop pig
- Python学习——Pig Latin小游戏
- websocket导入进度条
- 网关ping的通,外网ping不通
- 写了个基于IJK的播放器
- java.util.Date、java.sql.Date、java.sql.Time、java.sql.Timestamp区别和总结
- Android中EditText模仿输入
- hadoop学习——Pig
- iOS app打包 -- 生成ipa测试包 步骤详解
- ios中利用NSDateComponents、NSDate、NSCalendar判断当前时间是否在一天的某个时间段内。
- DTS/PTS
- Android 中常用的五种布局
- mavn学习基础内容
- nohup: cannot run command `java’: No such file or directory
- 抽象数据类型
- eclipse stm32学习笔记