Pig和Hive有什么不同
来源:互联网 发布:mac升级显卡 编辑:程序博客网 时间:2024/06/16 10:01
Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。
Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS(hive superimposes structure on data in HDFS),并允许使用类似于SQL语法进行数据查询。与Pig一样,Hive的核心功能是可扩展的。
Hive更适合于数据仓库的任务,Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。Pig赋予开发人员在大数据集领域更多的灵活性,并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。Pig相比Hive相对轻量,它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。
本质上说说Pig与Hive。
经过Pig Latin的转换后变成了一道MapReduce的作业,通过MapReduce多个线程,进程或者独立系统并行执行处理的结果集进行分类和归纳。Map() 和 Reduce() 两个函数会并行运行,即使不是在同一的系统的同一时刻也在同时运行一套任务,当所有的处理都完成之后,结果将被排序,格式化,并且保存到一个文件。Pig利用MapReduce将计算分成两个阶段,第一个阶段分解成为小块并且分布到每一个存储数据的节点上进行执行,对计算的压力进行分散,第二个阶段聚合第一个阶段执行的这些结果,这样可以达到非常高的吞吐量,通过不多的代码和工作量就能够驱动上千台机器并行计算,充分的利用计算机的资源,打消运行中的瓶颈。
也就是说,Pig最大的作用就是对mapreduce算法(框架)实现了一套shell脚本 ,类似我们通常熟悉的SQL语句,在Pig中称之为Pig Latin,在这套脚本中我们可以对加载出来的数据进行排序、过滤、求和、分组(group by)、关联(Joining),Pig也可以由用户自定义一些函数对数据集进行操作,也就是传说中的UDF(user-defined functions)。
结论性的阅读感觉是:Pig用来写一些即时脚本吧,比如领导问你要份数据,半个小时要出来之类;Hive嘛,就是一个产品经理过来,问这个啥回事?于是你Hive一下,一个简洁的类SQL语句...Done
- Pig和Hive有什么不同
- hadoop家族Pig和Hive有什么不同啊?
- hadoop pig和hive有什么区别
- [转]hadoop,spark,storm,pig,hive,mahout等到底有什么区别和联系?
- 空和“ ”有什么不同?
- hive和pig的区别
- Pig 和 Hive 的优化
- Pig和Hive的区别
- CIO和CTO有什么不同
- Release 和 Debug版有什么不同
- COM和ATL有什么不同?
- #include 和#include“file”有什么不同?
- C语言和C++有什么不同
- showModalDialog和showModelessDialog有什么不同?
- Hyper-v和Virtual_PC有什么不同
- CTO和CIO有什么不同
- %TYPE和%ROWTYPE有什么不同
- %TYPE和%ROWTYPE有什么不同
- SQL Server用用户名sa和密码方式登录错误28000(18452)
- EL表达式整理总结
- 比努力更重要的三件事
- 图文翻页-兼容IE8和Chrome浏览器
- MOST 汽车多媒体网络系统学习总结
- Pig和Hive有什么不同
- 448. Find All Numbers Disappeared in an Array 找出数组中消失的数
- 关于QT nativeWindow
- ERP项目管理——项目阶段及交付物
- CentOS 7 安装 Redis-3.2.6
- JSP整理总结--9大内置对象、4个作用域
- JSP-JSTL
- Spring Annotations
- adb取出手机安装的应用