Hadoop搭建并执行MapReduce

来源:互联网 发布:默沙东临床数据管理员 编辑:程序博客网 时间:2024/05/16 09:11

来点干货吧。后面可能工作比较多了,技术选型和架构工作要多一点了。


 移除点击此处添加图片说明文字

今天周六,很快,公司的BI要自己部门做了,新架构师希望我们原来的框架有较大改动,后期我需要帮助他很多工作,他的宗旨就是,能偷懒的就不要人为做,一切都尽量实现可配置化,目标是90%​,是的,你没听错。开发也要实现配置,而且后期要做推荐系统和用户画像。

我们快速记录一片mr从无到有的记录文档吧。首先mr我就不介绍了,map、reduce的最基本的wordcount程序可以很轻松实现。网上教程铺天盖地的,今天我们讲整合,同时因为签了保密协议,为了公司好,​我们很多关键部位任然需要马赛克。

那接下来,我们需要介绍一下,这个工作是我们从日志文件中要用mr做清洗,日志数据是已经是json格式了。

好吧,我们自己单机调试阶段吧,先来下载一个vmware,然后从网上随便找一个单机节点hadoop的快照,

 移除点击此处添加图片说明文字

因为是DHCP,​然后我们要做的是nat自动分配的ip要找到可用的域,所以别急。

 移除点击此处添加图片说明文字

​在此之前,我们遇到过一个坑,那我直接就把解决办法放在这里了,

 移除点击此处添加图片说明文字

我们win+r键,打开cmd直接输入:services.msc

把这两个开开。

 移除点击此处添加图片说明文字

否则虚拟机拿不到自动ip。

这时候,我们启动之后,进入操作系统,一般我们需要做几件事。我交代一下。

1.关闭防火墙

service iptables stop

Chkconfig iptables off

2.做时间同步​

yum -y install ntp

crontab -e

*/10 * * * * /usr/sbin/ntpdate time.nist.gov​

​3.cd /etc/sysconfig/network-scripts/ 

我们要 vi ifcfg-eth0 

将ip改为刚才能拿到的域下ip,gateway设为域下的.2 ​   dns8.8.8.8.8 就好了。


 移除点击此处添加图片说明文字

​​如果不适宜,也可以图形化界面里面右键网卡,edit编辑可用的ip

 移除点击此处添加图片说明文字


4.网卡重启​

    service network restart时如果failed处理方法

    cd /etc/udev/reles.d

    vi 70-presistent-net.rules

    仅保留我们ifcfg-eth0中的某一个网络设置即可。当然,你也可以暴力的选择闪了这个 70-presistent-net.rules文件  ,因为系统将从新生成可用的。init 0   即可。

到这里应该就可以了,重启之后,ping一下百度。这里注意,我设置了beifeng是最高权限了,所以,我切换过来了。你们不需要,用root就可以了。

 移除点击此处添加图片说明文字

补充一下,可以为了后面能浏览器用域,这里可以改一下hosts文件,把主机名改一下:

 移除点击此处添加图片说明文字

​然后可以ping一下主机名,

 移除点击此处添加图片说明文字

直接启动hadoop:

 移除点击此处添加图片说明文字

可以看到

 移除点击此处添加图片说明文字

​​

到这里,jdk、hadoop预先已经装好了,所以,也不赘述,详情可以买些书、网上资料查一下,配置集群、ssh都有教程,也不是这篇文档的重点。重点是,接下来hadoop的处理数据逻辑。

接下来我们准备测试数据,7个G吧,

 移除点击此处添加图片说明文字

 移除点击此处添加图片说明文字

然后我们shell进入,

 移除点击此处添加图片说明文字

​然后我们再hadoop上创建目录,放置待处理数据。cd modules/hadoop 目录

bin/hdfs dfs -mkdir /files

bin/hdfs dfs -put input路径文件夹 output目标文件夹

此时,我们可以看到的。

 移除点击此处添加图片说明文字

 移除点击此处添加图片说明文字

​接下来,我们打开

 移除点击此处添加图片说明文字

 移除点击此处添加图片说明文字

 移除点击此处添加图片说明文字

 移除点击此处添加图片说明文字

配置maven

 移除点击此处添加图片说明文字

​install一下

 移除点击此处添加图片说明文字

​jar包打好了,放到服务器上,ok了。

 移除点击此处添加图片说明文字

切换shell,跑mr。这中间也有一些路径的坑,一并粘贴出来,

 移除点击此处添加图片说明文字

​结束,

 移除点击此处添加图片说明文字

 移除点击此处添加图片说明文字

可以下载

 移除点击此处添加图片说明文字

​结束。这就是完整的mapreduce跑的程序。



原创粉丝点击