pig-配置(hadoop)-wordCount
来源:互联网 发布:如何成为淘宝达人步骤 编辑:程序博客网 时间:2024/06/06 12:46
1. 下载pig
http://www.apache.org/dyn/closer.cgi/pig
比如下载 pig-0.10.0.tar.gz
2. 安装pig
tar zxvf pig-0.10.0.tar.gz
将pig/bin目录加入path路径
vi ~/.bash_profile
#add pig/bin to path
export PATH=$PATH:path_to_pig_bin
. .bash_profile
3. 配置pig
在$PIG_HOME/conf/pig.properties下添加 hdfs和mapreduce的端口
-------------
fs.default.name=hdfs://hadoop.master:9000
mapred.job.tracker=hadoop.master:9001
-------------
fs.default.name 和 mapred.job.tracker可以在hadoop机群中namenode节点上的 ${HADOOP_HOME}/conf下的core-site.xml和 mapred-site.xml中找到
4. 运行pig
a). 本地运行 pig -x local, 该方式下使用本地文件,便于测试
b). 使用hadoop, pig 或者 pig -x mapreduce
该方式下使用hdfs中的文件
5. 测试实验-wordCount
a). 编写pig运行脚本-wordCount.pig
b). 将数据文件放入hdfs中
数据文件可以自己编写,也可以使用英文小说,比如 Les_Miserables.txt
hadoop fs -copyFromLocal ./Les_Miserables.txt /hadoop/pig/data/
c). 运行+查看统计结果
运行命令: pig ./wordCount.pig
执行结果在: /hadoop/wordCount.result/下
可以使用 : hadoop fs -tail /hadoop/wordCount.result/part-r-00000来查看
http://www.apache.org/dyn/closer.cgi/pig
比如下载 pig-0.10.0.tar.gz
2. 安装pig
tar zxvf pig-0.10.0.tar.gz
将pig/bin目录加入path路径
vi ~/.bash_profile
#add pig/bin to path
export PATH=$PATH:path_to_pig_bin
. .bash_profile
3. 配置pig
在$PIG_HOME/conf/pig.properties下添加 hdfs和mapreduce的端口
-------------
fs.default.name=hdfs://hadoop.master:9000
mapred.job.tracker=hadoop.master:9001
-------------
fs.default.name 和 mapred.job.tracker可以在hadoop机群中namenode节点上的 ${HADOOP_HOME}/conf下的core-site.xml和 mapred-site.xml中找到
4. 运行pig
a). 本地运行 pig -x local, 该方式下使用本地文件,便于测试
b). 使用hadoop, pig 或者 pig -x mapreduce
该方式下使用hdfs中的文件
5. 测试实验-wordCount
a). 编写pig运行脚本-wordCount.pig
-- load file '/hadoop/pig/data/Les_Miserables.txt' to novel, PigStorage='\n', make sure read all contents in a line. -- 此处PigStorage应当设置为'\n',这样可以保证解析完整的一行数据 -- 很多网上的例子没有设置,是错误的! -- 默认情况下,PigStorage为 tab, 此时如果一行中包含tab, 将导致tab后面的数据不能参与计数. novel = load 'novel.txt' using PigStorage('\n') as (line:chararray); -- split line into words by token tab or space or comma or dot -- 单词分隔符设置为 tab 空格 逗号 点号 words = foreach novel generate flatten(TOKENIZE(line,'\t ,.')) as word; -- group words by word grp = group words by word; result = foreach grp generate group,COUNT(words) as count; -- store result to 'wordCount.result/' store result into '/hadoop/wordCount.result';
b). 将数据文件放入hdfs中
数据文件可以自己编写,也可以使用英文小说,比如 Les_Miserables.txt
hadoop fs -copyFromLocal ./Les_Miserables.txt /hadoop/pig/data/
c). 运行+查看统计结果
运行命令: pig ./wordCount.pig
执行结果在: /hadoop/wordCount.result/下
可以使用 : hadoop fs -tail /hadoop/wordCount.result/part-r-00000来查看
- pig-配置(hadoop)-wordCount
- Hadoop配置以及WordCount示例
- 配置Hadoop集群+WordCount案例
- 配置Hadoop集群+WordCount案例
- pig—WordCount analysis
- hadoop pig
- hadoop pig
- (三)配置hadoop-----------运行wordcount例子
- Hadoop wordcount程序的配置运行
- Hadoop的配置及运行WordCount
- 配置Hadoop单机模式并运行Wordcount
- 配置 hadoop 开发环境+运行 wordcount 程序
- hadoop wordcount
- hadoop wordcount
- hadoop-wordcount
- Hadoop WordCount
- hadoop-wordcount
- hadoop wordcount
- GDI+基础知识——各种画笔线型
- 飞信现状原因分析及脱困策略
- 暂无
- java编程思想_003static作用
- 百度2013校园招聘笔试题(含整理的答案)
- pig-配置(hadoop)-wordCount
- filter与nested loops的区别
- Debug:tomcat:Web app root system property already set to different value:
- JXSE编程指南(目录)
- C++ 中const_cast的运用
- hdu 4405 概率dp 求期望
- LinkedHashMap和HashMap的比较使用
- 典型相关分析(Canonical Correlation Analysis)
- 保护程序猿滴眼睛-----修改VS 2008 编辑器颜色 (&&修改 chrome浏览器的背景色)