hadoop初级班(五)
来源:互联网 发布:荧光文字配图美图软件 编辑:程序博客网 时间:2024/04/30 03:09
参考炼数成金课程及hadoop权威指南
本次课程主要讲述pig
pig可以看做是hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作。pig方便不熟悉java的用户,使用一种较为简便的类似于SQL的面向数据流的语言pig Latin进行数据处理,是一种轻量级的脚本语言。
pig可以看成是个映射器,pig latin是被映射成mapreduce来执行的。
下载:
在官网上下载pig,有包括debian在内的各种版本可供下载
编辑环境变量:
这是centos系统
进入grunt(pig的shell名称) shell(本地模式,连接的不是hadoop的集群,是本地的文件系统)
pig的工作模式:
1.上面说的本地模式
2.mapreduce模式(集群模式)
设置path,增加指向hadoop/bin
设置PIG_CLASSPATH环境变量
然后进入grunt shell,在集群模式下直接打pig即可
pig的使用:
官网pig.apace.org
运行方法:
三种
1.脚本(pig XXX.pig) 2.grunt 3.嵌入式
grunt 自动补全机制(补全命令,不能补全文件名什么的) Eclipse插件pigpen Autocomplete文件
grunt shell常用命令
ls、cd、cat命令
copyToLocal
hdfs拷贝到本地
也可以运行普通的shell命令
sh ..............
pig latin语言:
数据类型:
Bag:表 Tuple:行,记录 Field:属性 pig不要求同一个bag里面的各个tuple有相同数量或相同类型的field
pig latin常用语句:
load:指出载入数据的方法
foreach:逐行扫描进行某种处理
filter:过滤行
dump:把结果显示到屏幕
store:把结果保存到文件
下面以hadoop权威指南的例子做一个讲解:(找每一年中的最大温度)
第一行load是从hadoop的文件系统里读入文件放到records里面然后指出区分每一列,第一列year,字符串类型,后两个类似
第二条命令filter是过滤,后面跟着过滤条件,赋给fltered_records
第三条是group命令是以year为聚合条件,产生结果
(1940,{{1949,111,1},{1949,333,2}})
第四条命令是逐行扫描,然后求出每一年最大温度
- hadoop初级班(五)
- hadoop初级班(一)
- hadoop初级班(三)
- hadoop初级班(二)
- hadoop初级班(四)
- hadoop使用(五)
- 一步一步学习hadoop(五)
- Hadoop(五)----API 操作
- hadoop之旅(五)
- 数据透视表初级班(10118班)第一课时小结
- Hadoop自学笔记(五)配置分布式Hadoop环境
- Hadoop入门进阶步步高(五)-搭建Hadoop集群
- 大数据之Hadoop平台(五)Hadoop多用户管理
- Hadoop HDFS源码学习笔记(五)
- hadoop API 学习小结(五)
- Hadoop 实战之Streaming(五)
- Hadoop 实战之Streaming(五)
- Hadoop NameNode启动之HeartbeatMonitor ( 五)
- CSS浏览器兼容问题
- 圆明园文物现身国内拍卖 专家:起码有机会买回来
- C++设计模式之职责链模式
- Java 对象序列化和操作文件 正则表达式
- Android中判断网络连接是否可用及监控网络状态
- hadoop初级班(五)
- 多地严防高考作弊:河南用无人机监测防作弊
- JDBC连接数据库的步骤
- Unity3d 游戏中的实时降噪-对Square Enix文档的研究与实现
- iReport 里的各 Band 的解释
- opencv笛卡尔坐标转换为极坐标cvLogPolar的应用
- “无人超市”信用测试:有人扔10元抱走名贵烟酒
- 官媒:CNN消费家属悲伤 误导读者认为中国救援不力
- R语言:词云图