王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程
来源:互联网 发布:医院网络客服工资高吗 编辑:程序博客网 时间:2024/05/21 22:59
此教程是王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”第三讲:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程。
具体的PDF版本教程请猛击这里。
王家林的“云计算分布式大数据Hadoop实战高手之路”之完整目录
王家林亲授的上海7月6-7日云计算分布式大数据Hadoop深入浅出案例驱动实战
王家林把自己几年来在Hadoop上的研究和实践总结出来,并通过动手实践的方式不断深入云就算实战技术,让人人皆可学习,并从中受益。
此教程来自于王家林多年的云计算实战研究和实践心得,全部免费教材为:云计算分布式大数据Hadoop实战高手之路(共3本书):
1,王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”带领您无痛入门Hadoop并能够处理Hadoop工程师的日常编程工作,进入云计算大数据的美好世界。
2, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手崛起”通过数个案例实战和Hadoop高级主题的动手操作带领您直达Hadoop高手境界。
3, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅,从此一览众山小。
这些教程会按照实践的推移每天逐步发布,大家要多多支持喔!
更多Hadoop交流可以联系家林:
新浪微博:http://weibo.com/ilovepains
QQ:1740415547
QQ群:312494188
Weixin:wangjialinandroid
官方博客:http://www.cnblogs.com/guoshiandroid/
问题:我们怎么知道Hadoop工作是正确可靠的?
具体的实验:在hadoop的hdfs中的根目录下创建“input”目录,把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中,然后运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录中,最后要验证我们的hadoop对单词个数统计的正确性。具体的操作如下:
Step 1: 在hadoop的hdfs中的根目录下创建“input”目录:
此时查看HDFS的Web控制台,出现了我们创建的“input”目录:
Step 2:把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中:
此时查看HDFS的Web控制台中的“input”目录,会发现我们成功的把Ubuntu本地的文件拷贝到了hdfs的/input/目录下:
Step 3:运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录并查看运行结果:
此时我们打开hdfs的Web控制台,发现出现了我们的运行结果存放文件夹“output”
打开output目录,运行结果数据存放在“part-r-00000”文件中:
打开“part-r-00000”文件中,可以看到我们的单词数统计结果如下:
Step 4:检查运行结果的正确性。
这里所说的正确性就是看Hadoop对我们多个文件中出现的单词个数的统计工作是否正确,例如我们打开bin目录下的“start-dfs.sh”文件,会发现“required”这个单词,如下所示:
此时我们使用Ubuntu自带grep工具查看一下所有目标文件中包含“required”这个单词的情况:
使用“wc”统计一下“required”这个单词出现的次数:
此时Ubuntu告诉我们bin目录下所有以.sh为结尾的文件中共有“required”这个单词的个数是14,下面我们去hdfs中查看Hadoop统计出结果:
可以看到hadoop通过MapReduce的机制统计出的结果也是14个。
至此,表明我们的Hadoop对单词的个数统计完全正确。
此时进入我们的JobTracker的Web控制台,查看我们的MapReduce任务的运行情况:
可以看到我们进行了14次Map和1次Reduce。
点击任务,可以看到运行的详细信息:
至此,我们彻底完成了实验。
原文地址:点击打开链接
- 王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程
- 王家林 第四讲Hadoop图文训练课程:实战构建真正的Hadoop分布式集群环境
- 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第九讲Hadoop图文训练课程:剖析NameNode和Secondary NameNode的工作机制和流程
- 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程:MapReduce的原理机制和流程图剖析
- 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十讲Hadoop图文训练课程:剖析Hadoop的重要配置文件
- 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第五讲Hadoop图文训练课程:解决典型Hadoop分布式集群环境搭建问题
- 云计算分布式大数据Hadoop实战高手之路第七讲Hadoop图文训练课程:通过HDFS的心跳来测试replication具体的工作机制和流程
- 云计算分布式大数据Hadoop实战高手之路第八讲Hadoop图文训练课程:Hadoop文件系统的操作实战
- 王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的第一讲Hadoop图文训练课程:10分钟理解云计算分布式大数据处理框架Hadoop
- 王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的第一讲Hadoop图文训练课程:10分钟理解云计算分布式大数据处理框架Hadoop
- 王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第二讲Hadoop图文训练课程:全球最详细的从零起步搭建Hadoop单机和伪分布式开发环境图文教程(长达88页的PDF)
- 补码正确性的证明
- 王家林 第六讲Hadoop图文训练课程:使用HDFS命令行工具操作Hadoop分布式集群初体验
- HADOOP如何保证数据的正确性保证
- krusal算法正确性的证明
- 如何证明程序的正确性?
- 树状数组正确性的证明、、、
- 【笔记】程序正确性的证明
- 《Effective C++》学习笔记条款15 在资源管理类中提供对原始资源的访问
- Tkinter 8.5 参考手册: a GUI for Python (二)
- Java Calendar 类的时间操作
- 重学微积分(一)
- Android View水平滑动与分页加载方案
- 王家林的第三讲Hadoop图文训练课程:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程
- CAS取消https验证
- 【HP 打印机】安装 Windows 7 中的网络打印机时收到错误消息:"0x0000052e"
- HDU - 2476 String painter
- GPIB
- 王家林 第四讲Hadoop图文训练课程:实战构建真正的Hadoop分布式集群环境
- 由后序和中序遍历得到先序遍历
- BigPipe要点
- GPIB_Demo