Mrjob介绍 (hadoop with python)
来源:互联网 发布:酷狗音乐网络播放器 编辑:程序博客网 时间:2024/06/05 11:15
什么是mrjob
一个通过hadoop、emr的mapreduce编程接口(streamming),扩展出来的一个python的编程框架。
安装
先安装python 2.5+版本(对应0.4)
线上目前版本:python 2.6.8
调度机安装mrjob即可:
http://pythonhosted.org/mrjob/guides/quickstart.html
具体安装方法:
进入mrjob安装包解压后的目录
安装python setup.py install
使用举例
单词频率统计程序
frommrjob.jobimport MRJob
classMRWordCounter(MRJob):
defmapper(self, _, line):
for wordin line.split():
yield word,1
defreducer(self, word,occurrences):
yield word,sum(occurrences)
if __name__ =='__main__':
MRWordCounter.run()
注:
Generator使用:
occurrences:
for each inoccurrences:
#todo对所有的value进行操作
本地模式
python pyfile.py infilename.file
输出结果到文件outputfilename.file
python pyfile.py infilename.file >outputfilename.file
hadoop模式
python pyfile.py infilename.file –r hadoop
输出结果到文件outputfilename.file:
python pyfile.py infilename.file –r hadoop >outputfilename.file
分步执行模式
python pyfile.py infilename.file –r hadoop –mapper–step-num=0
本人开发选中所遇到的问题
无法切换输入流
解决方案:
--fileupload filename.file
寻求支持
网站http://stackoverflow.com/
官方网站
待调研的问题
控制map,reduce数量?
数据流切换问题?
Debug方法:
本地模式
分步执行
Jobtracker追踪hadoop执行时的问题
mrjob中间写结果到标准错误输出
- Mrjob介绍 (hadoop with python)
- Mrjob介绍 (hadoop with python)
- python MRJob
- python MRJob
- python调用mrjob实现hadoop的mapreduce日志解析
- python hadoop 在streaming中获取文件名的方法 (参考java )适用: MRjob
- python hadoop 在streaming中获取文件名的方法 (参考java )适用: MRjob
- 给mrjob的python脚本加map reduce 个数限制 和 hadoop任务调度优先级
- 【原创】python MRJob -…
- 使用Python MrJob的MapReduce实现电影推荐系统
- 使用Python MrJob的MapReduce实现电影推荐系统
- 使用Python MrJob的MapReduce实现电影推荐系统
- 使用Python MrJob的MapReduce实现电影推荐系统
- mrjob文档
- Python的基础—with...as介绍
- Hadoop Streaming Made Simple using Joins and Keys with Python
- mrjob运行方式
- mrjob运行runner参数
- A. Table
- 《天下3》弈剑键位设置
- java 分支语句、循环、数组
- javascript数组
- android adb linux 调试指令
- Mrjob介绍 (hadoop with python)
- 算法学习之三角形组合
- oracle使用javasource
- robotium测试工具使用之——使用ID来进行点击、输入
- CEPH配置——4.认证配置
- 并口调试助手
- 七牛镜像存储 WordPress 插件:一键实现 WordPress 博客静态文件 CDN 加速
- java 类和对象、方法内定义变量、 构造方法
- 小时候的蓝精灵,大家还记得木有哇?