大数据——hadoop——基本安装、hadoop伪分布实际操作

来源：互联网发布：数字油画淘宝编辑：程序博客网时间：2024/06/04 18:54

大数据

——hadoop

——基本安装、hadoop伪分布

基本要求

人员能力要求

熟练掌握java基础，具备java基础开发能力

电脑配置要求

内存：8G以上，推荐12G

磁盘：150G以上空闲磁盘

安装介质说明

操作系统：ubuntu-14.04.1-desktop-amd64.iso

Jdk：

jdk-8u111-linux-x64.tar.gz

jdk-8u111-windows-x64.exe

hadoop:

hadoop-2.7.2.tar.gz

hadoop-2.7.2-src.tar.gz

操作系统基本配置

修改主机名

[/etc/hostname]

namenode

修改dns解析

[/etc/hosts]

127.0.0.1 localhost

10.204.111.139 namenode

10.204.111.133 secondarynamenode

10.204.111.148 datanode1

10.204.111.157 datanode2

10.204.111.158 datanode3

10.204.111.147 namenode2

修改win7的hosts文件

-------------------

[C:\Windows\System32\drivers\etc\hosts]

客户机桌面模式和文本模式切换

----------------------------

1、ctrl + alt + f6 //文本模式

2、ctrl + alt + f7 //桌面模式

开机进入文本模式

修改/etc/default/grub文件

1、sudo nano/etc/default/grub

GRUB_CMDLINE_LINUX_DEFAULT="text"

GRUB_TERMINAL=console

2、sudoupdate-grub //让改动生效

3、startx //在文本模式下启动图形界面

ftp安装(联网)

1、使用sudo apt-get installvsftp命令安装vsftp，安装软件需要root权限

2、安装好ftp后默认是会自动创建ftp用户的，然后我们设置ftp用户的密码，输入

sudopasswd ftp，然后输入密码，再确认密码hadoop

3、创建ftp用户的家目录，使用sudomkdir /home/ftp命令

4、设置ftp家目录的权限，我这里为方便直接使用sudo chmod 777 /home/ftp命令将权限设置为777

5、对/etc/vsftpd.conf配置文件进行一定的修改

将配置文件中”anonymous_enable=YES“改为“anonymous_enable=NO”（是否允许匿名ftp，若不允许选NO）

取消如下配置前的注释符号：

local_enable=YES（是否允许本地用户登录）

write_enable=YES（是否允许本地用户写的权限）

chroot_local_user=YES（是否将所有用户限制在主目录）

chroot_list_enable=YES（是否启动限制用户的名单）

chroot_list_file=/etc/vsftpd.chroot_list（可在文件中设置多个账号）

6、然后重启ftp服务，使用命令sudoservice vsftpd restart重启ftp服务。

7、如果登录ftp总是出现密码错误，可以将/etc/vsftpd.conf配置文件的pam_service_name=vsftpd改为pam_service_name=ftp，即可解决。

安装ssh(联网)

1、禁用wifi

2、关闭防火墙

3、client能够访问外网

4、修改ubuntu的软件源

[/etc/apt/sources.list]

5、安装ssh

apt-getinstall ssh

6、检查进程，是否启动了sshd服务

7、生成密钥对(防止权限过大)

ssh-keygen-t rsa -P '' -f ~/.ssh/id_rsa（在A机器生成密钥文件和私钥文件）

8、导入公钥到授权文件

cat~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys（把A机器生成密钥文件拷贝到B机器并执行命令）

9、测试

sshlocalhost

10、ssh删除缓存ssh-keygen –r ...

11、添加ssh免密登录，在各自账号下登录

Jdk安装

解压tar -xzvf jdk-8u111-linux-x64.tar.gz

移动解压的jdk移动到/soft目录mv jdk1.8.0_111/ /soft

进入/soft目录创建jdk链接ln -s jdk1.8.0_111/ jdk

使用root账号创建环境变量[/etc/environment][/etc/profile]

PATH=$PATH:/soft/jdk/bin

JAVA_HOME=/soft/jdk/

使环境变量生效source /etc/profile

检查java安装情况java –version。如下图所示，说明安装成功

大数据基本概念

大数据简单说明

0、分布式

由分布在不同主机上的进程协同在一起，才能构成整个应用

1、海量数据

1byte=8bit

1024B=1M2^10

1024M=1G2^10

1024G=1T2^10

1024T=1P2^10

1024P=1E2^10

1024E=1Z2^10

1024Z=1Y2^10

1024Y=1N2^10

2、存储

分布式存储

3、计算

分布式计算

4、hadoop(一头大象)

dougcutting

https://www.apache.org

hadoop

0、可靠、可伸缩、分布式计算的开源软件

hadoop是分布式计算大规模数据集框架，使用简单编程模型，可从单个服务器扩展到几千台主机，每台主机都提供了本地计算和存储，不需要使用硬件来获取高可用性，类库在应用层处理检测并处理故障，因此在集群之上获取HA服务

99.999%

1、hdfs

hadoopdistributed file system .gfs

2、去IOE

IBM+ Oracle + EMC

3、MapReduce

MR// 映射和化简，编程模型

4、概况

facebook// 1400台/1.12万cpu/15PB

baidu//上万台/存储100PB

大数据4V

Volumn// 体量大

Variaty// （样式多,结构化、半结构化、非结构化）

Velocity// 速度快（电商等产生速度快）

Valueless// 价值密度低

hadoop模块

1.hadoop common // 公共类库，支持其他模块

2.HDFS

namenode// 名称节点

datanode// 数据节点

secondarynamenode//辅助名称节点

3.hadoop yarn // yet another resource,作业调度和资源管理的框架

resourcemanager// 资源管理器

nodemanager//节点管理器

4.hadoop mapreduce // 基于yarn系统的大数据集并行处理技术

安装hadoop

1、解压tar -xzvfhadoop-2.7.2.tar.gz

2、移动解压文件到/soft

mvhadoop-2.7.2 /soft

3、创建连接

cd/soft

ln-s hadoop-2.7.2/ hadoop

4、环境变量

[/etc/environment]

PATH=”...:/soft/hadoop/bin:/soft/hadoop/sbin”

HADOOP_HOME=/soft/hadoop

[etc/profile]

PATH=...:/soft/hadoop/bin:/soft/hadoop/sbin

HADOOP_HOME=/soft/hadoop

5、使环境变量生效

source/etc/environment

source/etc/profile

6、测试

hadoopversion // 如果找不到jdk，重启机器

配置hadoop

Hadoop三种模式本地、伪分布、全分布

1、Standalone | local

独立/本地模式，使用的是本地文件系统

nothing!

a.没有守护进程，所有程序允许在同一JVM中，利于test和debug

b.查看文件系统

$>hadoop fs -ls / 查看本地文件系统

2、Pseudo distributedMode //伪分布模式

a、把hadoop-2.7.2分成3份，放在/soft/hadoop_etc目录中。

b、分别名称成hadoop_fully、hadoop_local、hadoop_pseudo，如下图：

c、重新创建hadoop链接指定到hadoop_etc/hadoop_pseudo

ln -s hadoop_etc/hadoop_pseudo/ hadoop

d、修改/soft/hadoop_etc/hadoop_pseudo/etc/hadoop中的配置文件

<?xmlversion="1.0"?>

<name>fs.defaultFS</name>

<value>hdfs://localhost/</value>

</property>

</configuration>

<?xmlversion="1.0"?>

<name>dfs.replication</name>

</property>

</configuration>

<?xmlversion="1.0"?>

<name>mapreduce.framework.name</name>

</property>

</configuration>

<?xmlversion="1.0"?>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

3、Fully DistributedMode

后面详细介绍

hadoop进程处理

1、查看hadoop进程个数（5）

$>jps

2nn

2、启动所有进程

$>start-all.sh

3、如果进程不对，杀死所有进程

$>stop-all.sh

4、重新格式化系统

$>hadoopnamenode -format // 重启需要格式化，因为在/tmp

使用webui访问hadoop

1.hdfs webui

http://localhost:50070

2.datanode

http://localhost:50075

3.2nn

http://localhost:50090

hdfs基本命令

hadoop fs

hadoop fs -mkdir -p /usr/hadoop/data //创建目录

hadoop fs -put hello.txt /usr/hadoop/data//上传

hdfs整体控制文件的思路如下图所示：

在win中配置hadoop环境变量

HADOOP_HOME=E:\gxf\学习\hadoop\tools\hadoop-2.7.2

注意：如果配置之后，eclipse中找不到，可以重启eclipse进行查找

Path=...;E:\gxf\学习\hadoop\tools\hadoop-2.7.2\bin

阅读全文

0 0