pig (高级过程语言,简化 Hadoop 的使用) 基本概念
来源:互联网 发布:淘宝千人千面要收费吗 编辑:程序博客网 时间:2024/06/06 05:19
pig
Pig是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。
Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。[1]
用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够适应MapReduce的处理模式。另一方面,编写MapReduce程序,发布及运行作业都将是一个比较耗时的事情。Pig的出现很好的弥补了这一不足。Pig能够让你专心于数据及业务本身,而不是纠结于数据的格式转换以及MapReduce程序的编写。本质是上来说,当你使用Pig进行处理时,Pig本身会在后台生成一系列的MapReduce操作来执行任务,但是这个过程对用户来说是透明的。
Pig作为客户端程序运行,即使你准备在Hadoop集群上使用Pig,你也不需要在集群上做任何安装。Pig从本地提交作业,并和Hadoop进行交互。
0 0
- pig (高级过程语言,简化 Hadoop 的使用) 基本概念
- 【hadoop pig】pig安装及使用
- HADOOP的PIG框架
- Hadoop 2.2.0下Pig安装及Pig的基础使用
- Hadoop Pig 使用中碰到的问题与例子
- Pig语言的学习
- Hadoop的脚本语言Pig应用
- 使用pig的注意事项
- pig的简单使用
- Pig的使用
- hadoop pig
- hadoop pig
- hadoop(十二) - pig安装与使用
- Hadoop之Pig从安装到使用
- Hadoop 上的HIVE,HBase和Pig Latin 数据流编程语言
- 使用PIG Latin 进行编程,Pig Latin语言详解
- pig的基本语法以及高级语法
- Yahoo持续的Pig/Hadoop(MapReduce)工作流
- 机器学习之优化算法——遗传算法
- 关于无法启动MYSQL服务”1067 进程意外终止”解决办法
- network of caffe and deep learning
- 康托展开+bfs-2
- mybatis整合ehcache分布式二级缓存框架的使用
- pig (高级过程语言,简化 Hadoop 的使用) 基本概念
- 浏览器工作原理
- 机器学习之优化算法——模拟退火算法
- 京东校招笔试题
- C++中int、int&、int*和int**的区别与联系、用途
- 【C#拾遗】——字符串转为整型三种方法
- 堆排序算法
- 南阳ACM
- 初始化请求blk_rq_init