关于pig使用的部分记录
来源:互联网 发布:中国公知奇葩言论 编辑:程序博客网 时间:2024/05/16 10:27
首先介绍下pig的背景,pig是由雅虎贡献给开源社区的一个项目,是针对缩短hadoop mapreduce开发周期所提出(速率快于streaming操作),pig本质上是一种数据流形式的开发模式,其语言是pig Latin。
安装pig非常简单,只有解压pig压缩包,然后把pig安装路径添加到环境变量中即可
pig启动有本地模式和mapreduce 模式分别为
pig -x local
以及pig -x mapreduce
对于pig latin编辑器,内部的一些操作如下:
rawData = load './thd/data.txt' using PigStorage(',') as (item1: chararray,item2: int,item3:int); //导入数据用,分割B= filted rawData by item3==0; //过滤数据C= group rawData by item2; //组合数据store B into './out/b'; //数据存入文本
5.pig在使用过程中会发现效果和hive差不多,那么二者使用本质上有什么差别呢,什么场景下使用pig什么场景下使用hive呢:
区别注释:
5.1.Language
在Hive中可以执行 插入/删除 等操作,但是Pig中我没有发现有可以 插入 数据的方法,请允许我暂且认为这是最大的不同点吧。
5.2.Schemas
Hive中至少还有一个“表”的概念,但是Pig中我认为是基本没有表的概念,所谓的表建立在Pig Latin脚本中,对与Pig更不要提metadata了。
5.3.Partitions
Pig中没有表的概念,所以说到分区对于Pig来说基本免谈,如果跟Hive说“分区”(Partition)他还是能明白的。
5.4.Server
Hive可以依托于Thrift启动一个服务器,提供远程调用。 找了半天压根没有发现Pig有这样的功能,如果你有新发现可以告诉我,就好像有人开发了一个Hive的REST
5.5.Shell
在Pig 你可以执行一些个 ls 、cat 这样很经典、很cool的命令,但是在使用Hive的时候我压根就没有想过有这样的需求。
Web Interface
Hive有,Pig无
JDBC/ODBC
Pig无,Hive有
- 关于pig使用的部分记录
- pig使用记录
- 使用pig的注意事项
- pig的简单使用
- Pig的使用
- pig的安装和使用
- pig中cogroup的使用
- Pig的简单使用介绍
- pig使用的一些注意事项
- 先占坑 Pig的使用
- 关于SQLite的部分使用
- 记录一下关于IntelliJ IDEA 及部分使用问题
- 关于pig中文输入的问题
- 关于 LYCHolyContentController 的使用记录
- 关于git的使用记录
- 关于perfmon2的使用记录
- 关于MySQL的使用记录
- 关于Ubuntu的使用记录
- Android中Context详解 ---- 你所不知道的Context
- C. Beautiful Numbers
- 动态规划学习第一篇~
- 198. House Robber
- 类(Classes)
- 关于pig使用的部分记录
- Kafka三款监控工具比较
- 用户登录
- SoapUI 笔记13 JDBC请求
- 空间换时间-替换空格
- gcc编译出现:致命错误,没有输入文件
- 165. Compare Version Numbers
- 绕圈跑_纪中2930_树状数组统计
- 用Procedure取得全月的日期