hadoop程序开发实践——简单程序
来源:互联网 发布:淘宝代理买吃的要证吗 编辑:程序博客网 时间:2024/06/01 09:24
本篇在hadoop上实践了几个hadoop程序。
分别是:词频统计(wordcount)、数据去重、数据排序、平均成绩、单表关联、多表关联、倒排索引。
对hadoop程序的运行机制,特别是mapreduce的运行过程、接口规范、shuffle有了进一步了解。
对mapper、combine、reducer三个重要函数进行了重写。
对输入输出文件夹input、output文件的删除、更新、上载下载有了实践操作。
程序一:wordcount.hadoop的hello world程序。
程序二:depulication.数据去重。对多个文件中,重复的数据及整理,只输出出现一次的数据。
程序三:sort.数据排序。对多个文件中的数据,进行排序,输出到一个文件中,并给出数据在原文件位次。
程序四:singleTableCorrelation.单表关联。对单个文件内的数据关联进行挖掘,输出有关系的数据组合。
程序五:doubleTableCorrelation.多表关联。对多个文件内,数据之间的关系进行挖掘,输出有关系的数据之间的组合。它是单表关联的扩展,逻辑上更加清晰。
程序六:average.平均值。对多个文件内,同一个人、商品的多个维度的值求均值。输出一个列出所有人、商品平均值的文件。
程序七:invertedindex:倒排索引。倒排索引是文件检索系统常用的数据结果,能够快速找出与查找字符相关的文件。
小结:
hadoop编程主要集中在map、combine、reduce三个函数的编写。
hadoop需要经常读写文件,所以效率并不高。
优点是能够利用hadoop集群,实现高吞吐量。
参考文章:
1、http://penghuaiyi.iteye.com/blog/1943464(详细列出了上述程序的源码java实现,思路、相关input\output文件)
- hadoop程序开发实践——简单程序
- 简单的hadoop程序开发
- Hadoop程序开发之——hadoop安装
- PWA 程序开发实践
- 微信小程序开发实践
- opencv实践程序5——最简单背景差分法
- Eclipse开发Hadoop程序
- Hadoop集群实践-Windows上Eclipse远程Linux服务器集群Hadoop进行程序开发
- 独立开发微信小程序——“桌游聚乐会”项目实践上线
- opencv实践程序3——打开摄像头视频及轮廓检测的简单程序
- hadoop程序开发之——JDK安装
- hadoop程序开发之——常用linux命令小结
- hadoop程序开发之——ssh服务安装、启动
- hadoop程序开发之——单机配置
- hadoop程序开发之——伪分布式配置
- GDB 程序调试简单实践
- 【小程序】微信小程序开发实践
- 【hadoop学习】在伪分布式hadoop上实践word count程序——c/c++ pipes版本
- Windows Server 2008 R2上部署ASP.NET MVC3.0应用网站程序
- 使用Powershell注销指定用户
- apt-get工作顺序
- Android View和ViewGroup事件分发机制源码分析
- cocos2d-x调用scheduleUpdate()不执行update()方法的解决办法
- hadoop程序开发实践——简单程序
- display:inline-block列表布局经常会遇到的“换行符/空格间隙问题”
- busybox 编译错误 miscutils/nandwrite.c:151:3: error: ‘MTD_FILE_MODE_RAW’ undeclared
- 专访包建强:为什么我说Android插件化从入门到放弃?
- 利用格雷码找出集合的所有非空子集
- java.net.SocketException: Too many open files解决方法
- 2016年计划
- Android Studio如何设置代码自动提示
- Logrotate日志切分