程序博客网 > 男士休闲短靴知乎

hadoop入门十四（pig）

来源：互联网发布：男士休闲短靴知乎编辑：程序博客网时间：2024/05/17 06:43

pig 一大打野猪

Pig是基于hadoop的一个数据处理的框架。
相比Java的MapReduce api，Pig为大型数据集的处理提供了更高层次的抽象，与MapReduce相比，Pig提供了更丰富的数据结构，一般都是多值和嵌套的数据结构。Pig还提供了一套更强大的数据变换操作，包括在MapReduce中被忽视的连接Join操作。
Pig包括两部分：

用于描述数据流的语言，称为Pig Latin。

用于执行Pig Latin程序的执行环境，当前有两个环境：单JVM中的本地执行环境和Hadoop集群上的分布式执行环境。
Pig内部，每个操作或变换是对输入进行数据处理，然后产生输出结果，这些变换操作被转换成一系列MapReduce作业，Pig让程序员不需要知道这些转换具体是如何进行的，这样工程师可以将精力集中在数据上，而非执行的细节上。

pig框架

这里写图片描述

pig是轻量级的语言将 pig Latin 语言映射成Map-reduce.
hive更加贴近。

安装

这里写图片描述
下载解压编辑环境变量
linux的环境变量

检测环境变量：

set //检查环境变量

进入grunt shell

pig -x local

pig的工作模式

本地模式：所有文件和执行的过程都在本地；一般用于测试程序
Mapreduce模式：实际工作的模式

配置pig的mapreduce模式

这里写图片描述
1.设置完成后重新登陆使得环境变量生效

找到namenode 等等
2.修改hosts

3.启动rrunt shell

4.Pig的参考文档

pig的运行方式

脚本
Grunt
嵌入式

Grunt

自动补全机制 //只能实现命令补全
autocomplete文件 //需要补全的单词放里头
Eclipes插件 PigPen

Grunt shell

ls cd cat copytolocal
执行操作系统命令：sh /usr/xxxxxx/jps
这里写图片描述

Pig数据模型

Bag:表（若干个 Tuple）
Tuple:行记录(理解为无序的集合)
Filed:属性
Pig不要求同一个bag里面的各个tuple有相同数量或者相同类型的field

对比着记忆的话：区别：表的数据类型没有要求，有差别。

Pig Latin的常用语句

Load:
Foreach:
filter:
dump:
store:

工作两年以后一定要学会套路
Git是一门技术
GitHub是一个服务
Github的源码在github的代码托管呢。

可以使用shell执行git命令
git权威指南
Google
solr:os项目 docs
maven jacaee github git clone mvn shell

1.权威指南前三章的东西
2.如何使用git
3.个人在工作中的协调的模型（个人基于java项目的实际协同方式）

何为Git:就是一个工具版本控制
首先我不会使用UI 图形化的工具固然很强大但是没有命令行爽

模块责任化
那么写DAO Service 层如果有耦合版本永远要一致
推上去拉下来
当某个时刻发现大家开发都完成了。管理人员，可以拿到项目测试功能，或者规范。

阅读全文

0 0

男士休闲短靴知乎

男士休闲短靴知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子小叶栀子黄叶怎么办黄花菜中毒了怎么办栀子花黄叶怎么办植物根部腐烂怎么办招财手烂根了怎么办情人泪烂根了怎么办养花烂根怎么办栀子花叶片发黑怎么办富贵竹花心烂怎么办栀子花枯枝了怎么办桅子花花苞发黄怎么办月季烂根怎么办花卉烂根怎么办石榴树烂根怎么办兰花烂根怎么办紫薇花卷叶怎么办紫薇叶子发黄怎么办紫薇花水浇多了怎么办紫薇花盆不漏水怎么办植物烂根怎么办体检听力不合格怎么办入学体检不合格怎么办海员体检色弱怎么办数字证书过期怎么办数字电视信号异常怎么办深圳数字证书怎么办生意不好资金怎么办联璧金融钱怎么办网贷催债怎么办高铁带药品怎么办东西落在火车站怎么办候车室遗失东西怎么办 ipad丢了怎么办火车站捡到东西怎么办火车上包丢了怎么办坐车累了怎么办害怕坐高铁怎么办自己睡觉害怕怎么办高铁站下错站了怎么办找工作怕面试怎么办找工作怕丢人怎么办