Hadoop搭建并执行MapReduce
来源:互联网 发布:默沙东临床数据管理员 编辑:程序博客网 时间:2024/05/16 09:11
来点干货吧。后面可能工作比较多了,技术选型和架构工作要多一点了。
移除点击此处添加图片说明文字今天周六,很快,公司的BI要自己部门做了,新架构师希望我们原来的框架有较大改动,后期我需要帮助他很多工作,他的宗旨就是,能偷懒的就不要人为做,一切都尽量实现可配置化,目标是90%,是的,你没听错。开发也要实现配置,而且后期要做推荐系统和用户画像。
我们快速记录一片mr从无到有的记录文档吧。首先mr我就不介绍了,map、reduce的最基本的wordcount程序可以很轻松实现。网上教程铺天盖地的,今天我们讲整合,同时因为签了保密协议,为了公司好,我们很多关键部位任然需要马赛克。
那接下来,我们需要介绍一下,这个工作是我们从日志文件中要用mr做清洗,日志数据是已经是json格式了。
好吧,我们自己单机调试阶段吧,先来下载一个vmware,然后从网上随便找一个单机节点hadoop的快照,
移除点击此处添加图片说明文字
因为是DHCP,然后我们要做的是nat自动分配的ip要找到可用的域,所以别急。
移除点击此处添加图片说明文字
在此之前,我们遇到过一个坑,那我直接就把解决办法放在这里了,
移除点击此处添加图片说明文字
我们win+r键,打开cmd直接输入:services.msc
把这两个开开。
移除点击此处添加图片说明文字
否则虚拟机拿不到自动ip。
这时候,我们启动之后,进入操作系统,一般我们需要做几件事。我交代一下。
1.关闭防火墙
service iptables stop
Chkconfig iptables off
2.做时间同步
yum -y install ntp
crontab -e
*/10 * * * * /usr/sbin/ntpdate time.nist.gov
3.cd /etc/sysconfig/network-scripts/
我们要 vi ifcfg-eth0
将ip改为刚才能拿到的域下ip,gateway设为域下的.2 dns8.8.8.8.8 就好了。
如果不适宜,也可以图形化界面里面右键网卡,edit编辑可用的ip
移除点击此处添加图片说明文字4.网卡重启
service network restart时如果failed处理方法
cd /etc/udev/reles.d
vi 70-presistent-net.rules
仅保留我们ifcfg-eth0中的某一个网络设置即可。当然,你也可以暴力的选择闪了这个 70-presistent-net.rules文件 ,因为系统将从新生成可用的。init 0 即可。
到这里应该就可以了,重启之后,ping一下百度。这里注意,我设置了beifeng是最高权限了,所以,我切换过来了。你们不需要,用root就可以了。
移除点击此处添加图片说明文字补充一下,可以为了后面能浏览器用域,这里可以改一下hosts文件,把主机名改一下:
移除点击此处添加图片说明文字然后可以ping一下主机名,
移除点击此处添加图片说明文字
直接启动hadoop:
移除点击此处添加图片说明文字
可以看到
移除点击此处添加图片说明文字
到这里,jdk、hadoop预先已经装好了,所以,也不赘述,详情可以买些书、网上资料查一下,配置集群、ssh都有教程,也不是这篇文档的重点。重点是,接下来hadoop的处理数据逻辑。
接下来我们准备测试数据,7个G吧,
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字
然后我们shell进入,
移除点击此处添加图片说明文字然后我们再hadoop上创建目录,放置待处理数据。cd modules/hadoop 目录
bin/hdfs dfs -mkdir /files
bin/hdfs dfs -put input路径文件夹 output目标文件夹
此时,我们可以看到的。
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字接下来,我们打开
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字
配置maven
移除点击此处添加图片说明文字install一下
移除点击此处添加图片说明文字jar包打好了,放到服务器上,ok了。
移除点击此处添加图片说明文字
切换shell,跑mr。这中间也有一些路径的坑,一并粘贴出来,
移除点击此处添加图片说明文字结束,
移除点击此处添加图片说明文字
移除点击此处添加图片说明文字
可以下载
移除点击此处添加图片说明文字结束。这就是完整的mapreduce跑的程序。
- Hadoop搭建并执行MapReduce
- 快速搭建Hadoop环境并测试mapreduce(1.0.3)
- hadoop mapreduce执行流程
- hadoop mapreduce执行流程
- hadoop基础----hadoop实战(四)-----myeclipse开发MapReduce---myeclipse搭建hadoop开发环境并运行wordcount
- Hadoop系列二:Hadoop单节点伪分布部署并执行mapreduce示例wordcount
- Hadoop MapReduce执行流程详解
- Hadoop MapReduce 程序执行过程
- Hadoop MapReduce执行过程详解
- Hadoop的MapReduce执行过程
- Hadoop MapReduce执行过程详解
- hadoop搭建之HDFS,MapReduce
- 【Hadoop】10、Hadoop的mapreduce搭建
- hadoop中mapreduce部分执行流程
- hadoop中mapreduce部分执行流程
- hadoop 2.2.0 执行MapReduce程序
- python 执行 hadoop-2.2.0 mapreduce
- hadoop中mapreduce部分执行流程
- 解决“Maven项目中的Dynamic Web Module 3.0 requires Java 1.6 or newer”问题
- 对于org.apache.commons.dbcp.BasicDataSource的配置认知
- 动态规划实例(十四):划分问题
- Unity3D之第一人称第三人称角色控制组件修改C#版本
- Spring NamedParameterJdbcTemplate
- Hadoop搭建并执行MapReduce
- java回忆篇
- Generative Adversarial Nets (GAN)解读
- maven项目,本项目中增加jar包并引用
- unity3d实现视频播放
- BZOJ 4080 [Wf2014]Sensor Network 随机化
- fragment中有高德地图,点击按钮切换fragment,出现黑屏闪过。
- 2016~2017下学年总结
- 理解深层神经网络中的迁移学习及TensorFlow实现