大数据——hadoop——基本安装、hadoop伪分布实际操作

来源:互联网 发布:数字油画淘宝 编辑:程序博客网 时间:2024/06/04 18:54

大数据

    ——hadoop

        ——基本安装、hadoop伪分布

 

基本要求

人员能力要求

熟练掌握java基础,具备java基础开发能力

电脑配置要求

内存:8G以上,推荐12G

磁盘:150G以上空闲磁盘

安装介质说明

操作系统:ubuntu-14.04.1-desktop-amd64.iso

Jdk

jdk-8u111-linux-x64.tar.gz

jdk-8u111-windows-x64.exe

hadoop:

hadoop-2.7.2.tar.gz

hadoop-2.7.2-src.tar.gz

操作系统基本配置

修改主机名

[/etc/hostname]

namenode

 

修改dns解析

[/etc/hosts]

127.0.0.1 localhost

 

10.204.111.139 namenode

10.204.111.133 secondarynamenode

10.204.111.148 datanode1

10.204.111.157 datanode2

10.204.111.158 datanode3

10.204.111.147 namenode2

 

修改win7hosts文件

-------------------

[C:\Windows\System32\drivers\etc\hosts]

客户机桌面模式和文本模式切换

----------------------------

1ctrl + alt + f6 //文本模式

2ctrl + alt + f7 //桌面模式

 

开机进入文本模式

修改/etc/default/grub文件

1sudo nano/etc/default/grub

         GRUB_CMDLINE_LINUX_DEFAULT="text"

         GRUB_TERMINAL=console

2sudoupdate-grub  //让改动生效

3startx //在文本模式下启动图形界面

 

ftp安装(联网)

1、使用sudo apt-get installvsftp命令安装vsftp,安装软件需要root权限

2、安装好ftp后默认是会自动创建ftp用户的,然后我们设置ftp用户的密码,输入

         sudopasswd ftp,然后输入密码,再确认密码hadoop

3、创建ftp用户的家目录,使用sudomkdir /home/ftp命令

4、设置ftp家目录的权限,我这里为方便直接使用sudo chmod 777 /home/ftp命令将权限设置为777

5、对/etc/vsftpd.conf配置文件进行一定的修改

         将配置文件中”anonymous_enable=YES“改为“anonymous_enable=NO”(是否允许匿名ftp,若不允许选NO

         取消如下配置前的注释符号:

         local_enable=YES(是否允许本地用户登录)

         write_enable=YES(是否允许本地用户写的权限)

         chroot_local_user=YES(是否将所有用户限制在主目录)

         chroot_list_enable=YES(是否启动限制用户的名单)

         chroot_list_file=/etc/vsftpd.chroot_list(可在文件中设置多个账号)

6、然后重启ftp服务,使用命令sudoservice vsftpd restart重启ftp服务。

7、如果登录ftp总是出现密码错误,可以将/etc/vsftpd.conf配置文件的pam_service_name=vsftpd改为pam_service_name=ftp,即可解决。

安装ssh(联网)

1、禁用wifi

2、关闭防火墙

3client能够访问外网

4、修改ubuntu的软件源

         [/etc/apt/sources.list]

5、安装ssh

         apt-getinstall ssh

6、检查进程,是否启动了sshd服务

7、生成密钥对(防止权限过大)

         ssh-keygen-t rsa -P '' -f ~/.ssh/id_rsa(在A机器生成密钥文件和私钥文件)

8、导入公钥到授权文件

         cat~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys(把A机器生成密钥文件拷贝到B机器并执行命令)

9、测试

         sshlocalhost

      

10ssh删除缓存ssh-keygen –r ...

11、添加ssh免密登录,在各自账号下登录

Jdk安装

解压tar -xzvf jdk-8u111-linux-x64.tar.gz

移动解压的jdk移动到/soft目录mv jdk1.8.0_111/ /soft

进入/soft目录创建jdk链接ln -s jdk1.8.0_111/ jdk

使用root账号创建环境变量[/etc/environment][/etc/profile]

PATH=$PATH:/soft/jdk/bin

JAVA_HOME=/soft/jdk/

使环境变量生效source /etc/profile

检查java安装情况java –version。如下图所示,说明安装成功

 

大数据基本概念

大数据简单说明

0、分布式

         由分布在不同主机上的进程协同在一起,才能构成整个应用

1、海量数据

         1byte=8bit

         1024B=1M2^10

         1024M=1G2^10

         1024G=1T2^10

         1024T=1P2^10

         1024P=1E2^10

         1024E=1Z2^10

         1024Z=1Y2^10

         1024Y=1N2^10

2、存储

         分布式存储

3、计算

         分布式计算

4hadoop(一头大象)

         dougcutting

         https://www.apache.org

 

hadoop

0、可靠、可伸缩、分布式计算的开源软件

         hadoop是分布式计算大规模数据集框架,使用简单编程模型,可从单个服务器扩展到几千台主机,每台主机都提供了本地计算和存储,不需要使用硬件来获取高可用性,类库在应用层处理检测并处理故障,因此在集群之上获取HA服务

                   99.999%

1hdfs

         hadoopdistributed file system .gfs

2、去IOE

         IBM+ Oracle + EMC

3MapReduce

         MR// 映射和化简,编程模型

4、概况

         facebook// 1400/1.12cpu/15PB

         baidu//上万台/存储100PB

大数据4V

         Volumn// 体量大

         Variaty// (样式多,结构化、半结构化、非结构化)

         Velocity// 速度快(电商等产生速度快)

         Valueless// 价值密度低

hadoop模块

1.hadoop common // 公共类库,支持其他模块

2.HDFS

         namenode// 名称节点

         datanode// 数据节点

         secondarynamenode//辅助名称节点

3.hadoop yarn // yet another resource,作业调度和资源管理的框架

         resourcemanager// 资源管理器

         nodemanager//节点管理器

4.hadoop mapreduce // 基于yarn系统的大数据集并行处理技术

安装hadoop

1、解压tar -xzvfhadoop-2.7.2.tar.gz

2、移动解压文件到/soft

                   mvhadoop-2.7.2 /soft

3、创建连接

         cd/soft

         ln-s hadoop-2.7.2/ hadoop

        

4、环境变量

         [/etc/environment]

         PATH=”...:/soft/hadoop/bin:/soft/hadoop/sbin”

         HADOOP_HOME=/soft/hadoop

         [etc/profile]

         PATH=...:/soft/hadoop/bin:/soft/hadoop/sbin

         HADOOP_HOME=/soft/hadoop

5、使环境变量生效

         source/etc/environment

         source/etc/profile

6、测试

         hadoopversion // 如果找不到jdk,重启机器

 

配置hadoop

Hadoop三种模式本地、伪分布、全分布

1Standalone | local

独立/本地模式,使用的是本地文件系统

nothing!

a.没有守护进程,所有程序允许在同一JVM中,利于testdebug

b.查看文件系统

$>hadoop fs -ls / 查看本地文件系统

2Pseudo distributedMode //伪分布模式

a、把hadoop-2.7.2分成3份,放在/soft/hadoop_etc目录中。

b、分别名称成hadoop_fullyhadoop_localhadoop_pseudo,如下图:

c、重新创建hadoop链接指定到hadoop_etc/hadoop_pseudo

ln -s hadoop_etc/hadoop_pseudo/ hadoop

d、修改/soft/hadoop_etc/hadoop_pseudo/etc/hadoop中的配置文件

         <?xmlversion="1.0"?>

         <!-- core-site.xml-->

         <configuration>

                   <property>

                            <name>fs.defaultFS</name>

                            <value>hdfs://localhost/</value>

                   </property>

         </configuration>

 

         <?xmlversion="1.0"?>

         <!-- hdfs-site.xml-->

         <configuration>

                   <property>

                            <name>dfs.replication</name>

                            <value>1</value>

                   </property>

         </configuration>

 

         <?xmlversion="1.0"?>

         <!--mapred-site.xml -->

         <configuration>

                   <property>

                            <name>mapreduce.framework.name</name>

                            <value>yarn</value>

                   </property>

         </configuration>

 

         <?xmlversion="1.0"?>

         <!-- yarn-site.xml-->

         <configuration>

                   <property>

                            <name>yarn.resourcemanager.hostname</name>

                            <value>localhost</value>

                   </property>

                   <property>

                            <name>yarn.nodemanager.aux-services</name>

                            <value>mapreduce_shuffle</value>

                   </property>

         </configuration>

 

3Fully DistributedMode

后面详细介绍

hadoop进程处理

1、查看hadoop进程个数(5

$>jps

nn

dn

2nn

rm

nm

2、启动所有进程

$>start-all.sh

3、如果进程不对,杀死所有进程

$>stop-all.sh

4、重新格式化系统

$>hadoopnamenode -format // 重启需要格式化,因为在/tmp

使用webui访问hadoop

1.hdfs webui

http://localhost:50070

2.datanode

http://localhost:50075

3.2nn

http://localhost:50090

hdfs基本命令

hadoop fs

hadoop fs -mkdir -p /usr/hadoop/data //创建目录

hadoop fs -put hello.txt /usr/hadoop/data//上传

hdfs整体控制文件的思路如下图所示:

win中配置hadoop环境变量

HADOOP_HOME=E:\gxf\学习\hadoop\tools\hadoop-2.7.2

         注意:如果配置之后,eclipse中找不到,可以重启eclipse进行查找

Path=...;E:\gxf\学习\hadoop\tools\hadoop-2.7.2\bin

 

原创粉丝点击