hadoop一些入门小知识点儿（命令）

来源：互联网发布：ppt制作软件编辑：程序博客网时间：2024/05/16 19:11

一、外部eclipse连接linux中hadoop

1、把插件包放到eclipse的安装包plugins中（插件包：hadoop-eclipse-plugin-2.6.0）
2、把haddop2.6.4的dll放到hadoop的安装包（hadoop的解压包）的bin目录下
3、配置hadoop的环境变量--》

HADOOP_HOME
D:\Program Files\hadoop-2.6.5

Path

%HADOOP_HOME%\bin;

二、修改虚拟机ip和网卡

ifconfig //查看 ip地址和设备名

cd /etc/sysconfig

cd network-scripts/

ifconfig -a //确认设备名eno16777736等

cp ifcfg-lo ifcfg-eno16777736

vi ifcfg-eno16777736

//修改如下：

BOOTPROTO=static

NAME=eno16777736

DEVICE=eno16777736

IPADDR=192.168.120.120

ONBOOT=yes

NAME=eno16777736

service network restart //重启网卡服务

//当前没有主机名可以添加

cat etc/hosts

hostnamectl --static set-hostname n1 //root用户执行

vi /etc/hosts 修改网卡配置文件

//添加如下：ip和主机名

192.168.120.120 n1 //保存退出

reroot //重启查看

注;查看ip：

1、ifconfig -a

2、cat /etc/hosts

三、安装gnome桌面环境

yum groupinstall "GNOME Desktop"

[root @localhsot~]# startx

以后每次登陆后 restart一下就可以有桌面图形化界面了

四、修改用户名组名（hadoop文件位于 :/usr/local/hadoop）

例如：

test test hadoop 改为：

hadoop hadoop hadoop

local下可以查看是否有hadoop组：cat /etc/group

local下可以查看是否有hadoop用户:cat /etc/passwd

修改：

chown -R hadoop:hadoop /usr/local/hadoop

五、关闭防火墙和开启监听

1、关闭防火墙：

systemctl stop firewalld.service

注cmd 下：tnsping test120能够成功，才能使用Toad for oracle

2、开启监听:

lsnrctl start (status查看状态 stop关闭监听)

注:

安装oracle中

dbca：创建oracle数据库实例

netca：创建监听器。配置监听器服务，命名方法配置，本地net服务，目录使用服务。

六、hadoop伪分布式安装以及安装jdk（转）

值得注意的是项目右键--》buildPath libraries下也有jdk 可以直接进行插入和移除

今天我们给大家介绍的是伪分布环境安装

首先我们需要创建一个用户这个用户呢就起名字叫hadoop

然后创建一个用户组

1.创建用户组和用户


groupadd hadoop
useradd -g hadoop hadoop   //把当前的hadoop用户添加到hadoop组里
passwd hadoop

3.配置ssh无密码登录

简单介绍ssh无密码登陆

所谓无密码登陆其实是指通过证书认证的方式登陆，使用一种被称为"公私钥"认证的方式来进行ssh登录。

在linux系统中,ssh是远程登录的默认工具,因为该工具的协议使用了RSA/DSA的加密算法.

该工具做linux系统的远程管理是非常安全的。

telnet,因为其不安全性,在linux系统中被搁置使用了。

" 公私钥"认证方式简单的解释:首先在客户端上创建一对公私钥（公钥文件：~/.ssh/id_rsa.pub；私钥文件：~/.ssh/id_rsa）。

然后把公钥放到服务器上（~/.ssh/authorized_keys）, 自己保留好私钥.在使用ssh登录时,

ssh程序会发送私钥去和服务器上的公钥做匹配.如果匹配成功就可以登录了。

接下来我们实际操作一下：

切换至hadoop用户

su - hadoop
生成密钥

ssh-keygen -t rsa -P ""
执行后会在.ssh目录下生成id_rsa和id_rsa.pub两个文件

进入.ssh目录，并将id_rsa.pub追加到authorized_keys文件中

cd /home/hadoop/.ssh

--将id_rsp.pub里边的文件内容追加到或者复制到 authorized_keys文件里边

cat id_rsa.pub >> authorized_keys   //重定向追加

------

chmod 600 authorized_keys

-rw------- (600) -- 只有属主有读写权限。

测试是否可以登录

ssh localhost       后边或是主机名

执行后会提示输入 yes or no. 输入yes后

如果提示为最后一次登录时间则表明ssh无密码登陆配置成功了。

把2个包（hadoop-2.6.5-src.tar）复制吧到tmp

确认还有没有卸载干净如果执行后下边什么都没有证明卸载干净
rpm -qa | grep java --没有结果，卸载干净

jdk也安装过去

配置hadoop 的环境变量

cd /tmp
先jdk
tar -xcf
或：建议后者
rpm -ivh 包名

vi /etc/profile

export HADOOP_INSTALL=/usr/local/hadoop
export PATH=${HADOOP_INSTALL}/bin:${HADOOP_INSTALL}/sbin${PATH}
export HADOOP_MAPRED_HOME=${HADOOP_INSTALL}
export HADOOP_COMMON_HOME=${HADOOP_INSTALL}
export HADOOP_HDFS_HOME=${HADOOP_INSTALL}
export YARN_HOME=${HADOOP_INSTALLL}
export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_INSTALL}/lib/native
export HADOOP_OPTS="-Djava.library.path=${HADOOP_INSTALL}/lib:${HADOOP_INSTALL}/lib/native"

source /etc/profile 生效

// mv /tmp/hadoop 2.6.4/ /usr/local/
mv hadoop-2.6.5.tar.gz /usr/local

cd /usr/local/

tar -zxvf hadoop-2.6.5.tar.gz   解压

mv hadoop-2.6.5 hadoop 改文件夹名

-----------
--------修改环境变量的几种方法一带而过

1)etc/profile:此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文件被执行.
并从/etc/profile.d目录的配置文件中搜集shell的设置.
注：在这里我们设定是为所有用户可使用的全局变量。

2)/etc/bashrc:为每一个运行bash shell的用户执行此文件.当bash shell被打开时,该文件被读取.

3)~/.bash_profile:每个用户都可使用该文件输入专用于自己使用的shell信息,当用户登录时,该文件仅仅执行一次!默认情况下,

他设置一些环境变量,执行用户的.bashrc文件.
注：~在LINUX下面是代表HOME这个变量的。
另外在不同的LINUX操作系统下，这个文件可能是不同的，可能是~/.bash_profile； ~/.bash_login或 ~/.profile其中的一种或几种，

如果存在几种的话，那么执行的顺序便是：~/.bash_profile、 ~/.bash_login、 ~/.profile。比如我用的是Ubuntu，我的用户文件夹下默认的就只有~/.profile文件。
-- ---------------------

设置hadoop-env.sh中的java环境变量

hadoop-env.sh该文件存放路径为：

/usr/local/hadoop/etc/hadoop/hadoop-env.sh

cd /usr   返回上一级
cd java
ls       显示jdk版本jdk1.8.0_112
cd jdk1.8.0_112
pwd       显示当前路径：/usr/java/jdk1.8.0_112

找到 /usr/local/hadoop/etc/hadoop/hadoop-env.sh 替换java_home
JAVA_HOME=/usr/java/jdk1.8.0_112

//cd /usr/local/hadoop

//vim ./etc/hadoop/hadoop-env.sh

//export JAVA_HOME= {你的java环境变量}

5.配置伪分布式

hadoop的配置文件主要有core-site.xml 、 hdfs-site.xml 、 yarn-site.xml 三个文件。

注：可以直接去对应文件夹添加对应属性

---这些文件存放在/usr/local/hadoop/etc/hadoop下

cd /usr/local/hadoop/etc/hadoop

--手动创建tmp文件夹

cd /usr/local/hadoop
mkdir tmp

core-site.xml



<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.120.120:9000</value>
    </property>
</configuration>

                       //修改ip
-------vi hdfs-site.xml

mkdir -p /usr/local/hadoop/dfs/name

mkdir -p /usr/local/hadoop/dfs/data

<！--这个属性节点是为了防止后面eclipse存在拒绝读写设置的 -->

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/dfs/data</value>
    </property>
    <property>
            <name>dfs.permissions</name>
            <value>false</value>
     </property>
</configuration>

--------vi yarn-site.xml

yarn-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

       //新增

--------------创建mapred-site.xml

cd /usr/local/hadoop/etc/hadoop/

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<configuration>

<property>

<name>
mapreduce.framework.name
</name>

<value>
yarn
</value>

</property>

</configuration>

接下来创建需要的文件夹

注意： //第一次没有成功，把之前的文件删除
rm -rf /usr/local/hadoop/tmp

rm -rf /usr/local/hadoop/dfs

创建一次就好了
mkdir -p /usr/local/hadoop/tmp

mkdir -p /usr/local/hadoop/dfs/name
mkdir -p /usr/local/hadoop/dfs/data

注：之前貌似忘了。
//创建dfs下的 name、data、tmp文件夹
//可以这样一口气创建子文件夹： hadoop@n1 hadoop]$ mkdir -p dfs/name

cd /usr/local/hadoop
mkdir tmp

dfs

dfs/name

dfs/data

到目前为止所有的配置都已经完成。

6.运行
首先格式化文件系统

   usr/local /hadoop bin下命令：hdfs namenode -format
.bin/hdfs namenode -format

启动

usr/local /hadoop/sbin

./sbin/start-dfs.sh
./sbin/start-yarn.sh

（运行命令：-->./start-all.sh）
或者

./sbin/start-all.sh

./sbin/stop-all.sh

---jps查看后台java进程是否存在都存在证明配置成功

namenode,datanode,resourcemanager,nodemanager,secondarynamenode

提示如下则表明成功了。

Starting namenodes on [localhost]
localhost: starting namenode, logging to /usr/opt/hadoop-2.6.0/logs/hadoop-hadoop-namenode-.out
localhost: starting datanode, logging to /usr/opt/hadoop-2.6.0/logs/hadoop-hadoop-datanode-.out
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /usr/opt/hadoop-2.6.0/logs/hadoop-hadoop-secondarynamenode-.out

输入网址127.0.0.1:50070就可以看见hadoop的网页了。

可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件。

http://192.168.130.111:50070

http://192.168.146.130:50070

http://192.168.130.111:8088

./bin/hdfs dfsadmin -report

web管理界面查看

以下有用：
http://192.168.120.120:50070 访问hdfs文件系统
http://192.168.120.120:8088 访问hadoop

cd bin
hadoop fs -mkdir /input
hadoop fs -ls /       可以访问第一个查看了
vi test.txt
打入 hello123 hello1 hello123 保存退出
hadoop fs -put test.txt /input 可以继续访问第一个查看

时间同步

date -s "1017-01-01 00:00:00"

《完》
《完》
《完》
《完》

0 0