hadoop 学习笔记

来源:互联网 发布:国家网络信息安全举报 编辑:程序博客网 时间:2024/06/04 18:33

hadoop伪分布环境搭建:
 1.准备工作
   这里我使用的是Win7系统32位,VM10虚拟机Linux是6.4版本,hadoop是1.0 jdk是1.6
  1.1 将hadoop-1.0.4.gz和jdk通过WinSCP传到Linux系统的/uer/local/目录下
  1.2 解压jdk,执行 ./jdk
  1.3 配置jdk环境变量,执行 vi /etc/profile 进行如下增加修改
      export JAVA_HOME=/usr/local/jdk
      export PATH=.:$PATH:$JAVA_HOME/bin
      执行 source /etc/profile 使上述操作立刻生效
  1.4 执行 vi /etc/sysconfig/network,更改主机名 
      HOSTNAME=hadoop(这里起名叫做hadoop)
  1.5 关闭防火墙 执行 service iptables status 执行 chkconfig iptables off 防止防火墙充气
      执行 chkconfig -list | grep iptables 查看防火墙状态

 2.设置DNS解析
  2.1 因为hadoop集群间是通过主机名互相访问的,所以必须设置dns解析,执行 vi /etc/hosts
      192.168.226.100 hadoop这里是主机ip和主机名称,将其添加进去。
      注:如果是集群环境的话有多个节点,那么这里应该将每一台机器的ip和主机名都写在这个文件里。

 3.设置SSH免密码登录
  3.1 执行 cd ~ 回到用户主目录下,执行查看所有文件包括隐藏文件 ls -a 可以看到下面有个文件
      .ssh这就是存放密钥的地方
  3.2 执行 ssh-keygen -t rsa 生成加密文件 执行 cd .ssh/ 打开目录 执行 ls -l 此刻已经生成了
      id_rsa 和 id_rsa.pub两个文件
  3.3 执行 cp id_rsa.pub authorized_keys 生成authorized_keys文件,因为使用SSH免密码登录
      的时候默认会去访问authorized_keys
  3.4 验证是否成功,执行 ssh hadoop 就可以连接到这台主机了,exit可以退出这台主机。

 4.解压hadoop-1.0.4.gz进行配置
  4.1 执行 tar -xzvf hadoop-1.0.4.gz 名字太长,解压完成后重命名下 执行 mv hadoop-1.0.4 hadoop
  4.2 配置hadoop的环境变量 执行 vi /etc/profile 进行如下增加修改
      export HADOOP_HOME=/usr/local/hadoop
      export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
  4.3 然后就是修改配置文件啦,hadoop的配置文件都在/hadoop/conf文件夹下,补充一点,编辑这些配置文件的时候
      可以在Win7下使用WinSCP工具进行修改。
   4.3.1 修改hadoop-env.sh这个文件的第九行将#号去掉 export JAVA_HOME=/usr/local/jdk 这里就是你设置的jdk的目录
   4.3.2 修改core-site.xml
         <configuration>
    <property>
     <name>hadoop.tmp.dir</name>
     <value>/home/hadoop/tmp</value>
     <description>hadoop 的运行临时文件的主目录</description>
    </property>
    <property>
     <name>fs.default.name</name>
     <value>hdfs://hadoop:9000</value>
     <description>HDFS 的访问路径</description>
    </property>
         </configuration>
   4.3.3 修改hdfs-site.xml
         <configuration>
    <property>
     <name>dfs.replication</name>
     <value>1</value>
     <description>存储副本数</description>
    </property>
         </configuration>
   4.3.4 修改mapred-site.xml
         <configuration>
    <property>
     <name>mapred.job.tracker</name>
     <value>hadoop:9001</value>
     <description>JobTracker 的访问路径</description>
    </property>
         </configuration>
   // 如果是真实的集群环境还要配置另外两个文件,一个是masters另一个是slaves
   4.3.5 修改 masters
         执行 vim masters
         将namenode服务器的ip地址填入此处为192.168.226.100
   4.3.6 修改 slaves
         执行 vim slaves
         将datenode服务器的ip地址全部填入
         例如:192.168.226.2
         192.168.226.3
        192.168.226.4
   注意:配置文件中最好不要出现中文,否则会报错。
 5.格式化文件系统
  5.1 执行 hadoop namenode -format
  5.2 启动进程 start-all.sh
  5.3 执行 jps 查看进程是否都开启了
          NameNode
    DataNode
     SecondaryNameNode
    TaskTracker
    JobTracker
    Jps

 至此,伪分布文件系统搭建成功。


hadoop真实集群环境搭建:
 在hadoop服务器上执行下面命令将相关配置导入datenode服务器中如果有多个都使用如下方法。
 前提是在没台机器上都自己绑定好了主机名,绑定主机名执行命令 vi /etc/sysconfig/network
 scp –rq /usr/local/jdk hadoop1:/usr/local
 scp –rq /usr/local/hadoop hadoop1:/usr/local
 scp –rq /etc/profile hadoop1:/etc
 scp -rq /etc/hosts hadoop1:/etc

 至于SSH无密码互相登录~~~~  这个没有真实的集群环境可供实验,目前停留在资料上所描述的情况,
 这里就不详细赘述了,百度即可。


vi 操作配置文件的部分使用方法

打开文件后按a或者i进行编辑

按esc退到命令状态

按X删除当前光标字符

按U恢复上一次修改

H左移

L右移

J下移

K上移

按shift+:+wq保存退出

shift+:+q!退出不保存


ubuntu重启网卡的方法

sudo ln -s /lib/init/upstart-job /etc/init.d/network-manager

然后就可以使用
/etc/init.d/network-manager restart
重启网卡了
  

ubuntu更改主机名

vi /etc/hostname


1 0
原创粉丝点击