hadoop 学习笔记

来源：互联网发布：国家网络信息安全举报编辑：程序博客网时间：2024/06/04 18:33

hadoop伪分布环境搭建：
1.准备工作
   这里我使用的是Win7系统32位，VM10虚拟机Linux是6.4版本，hadoop是1.0 jdk是1.6
  1.1 将hadoop-1.0.4.gz和jdk通过WinSCP传到Linux系统的/uer/local/目录下
  1.2 解压jdk，执行 ./jdk
  1.3 配置jdk环境变量，执行 vi /etc/profile 进行如下增加修改
      export JAVA_HOME=/usr/local/jdk
      export PATH=.:$PATH:$JAVA_HOME/bin
      执行 source /etc/profile 使上述操作立刻生效
  1.4 执行 vi /etc/sysconfig/network，更改主机名
      HOSTNAME=hadoop(这里起名叫做hadoop)
  1.5 关闭防火墙执行 service iptables status 执行 chkconfig iptables off 防止防火墙充气
      执行 chkconfig -list | grep iptables 查看防火墙状态

2.设置DNS解析
  2.1 因为hadoop集群间是通过主机名互相访问的，所以必须设置dns解析，执行 vi /etc/hosts
      192.168.226.100 hadoop这里是主机ip和主机名称，将其添加进去。
      注：如果是集群环境的话有多个节点，那么这里应该将每一台机器的ip和主机名都写在这个文件里。

3.设置SSH免密码登录
  3.1 执行 cd ~ 回到用户主目录下，执行查看所有文件包括隐藏文件 ls -a 可以看到下面有个文件
      .ssh这就是存放密钥的地方
  3.2 执行 ssh-keygen -t rsa 生成加密文件执行 cd .ssh/ 打开目录执行 ls -l 此刻已经生成了
      id_rsa 和 id_rsa.pub两个文件
  3.3 执行 cp id_rsa.pub authorized_keys 生成authorized_keys文件，因为使用SSH免密码登录
      的时候默认会去访问authorized_keys
  3.4 验证是否成功，执行 ssh hadoop 就可以连接到这台主机了，exit可以退出这台主机。

4.解压hadoop-1.0.4.gz进行配置
  4.1 执行 tar -xzvf hadoop-1.0.4.gz 名字太长，解压完成后重命名下执行 mv hadoop-1.0.4 hadoop
  4.2 配置hadoop的环境变量执行 vi /etc/profile 进行如下增加修改
      export HADOOP_HOME=/usr/local/hadoop
      export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
  4.3 然后就是修改配置文件啦，hadoop的配置文件都在/hadoop/conf文件夹下，补充一点，编辑这些配置文件的时候
      可以在Win7下使用WinSCP工具进行修改。
   4.3.1 修改hadoop-env.sh这个文件的第九行将#号去掉 export JAVA_HOME=/usr/local/jdk 这里就是你设置的jdk的目录
   4.3.2 修改core-site.xml
         <configuration>
    <property>
     <name>hadoop.tmp.dir</name>
     <value>/home/hadoop/tmp</value>
     <description>hadoop 的运行临时文件的主目录</description>
    </property>
    <property>
     <name>fs.default.name</name>
     <value>hdfs://hadoop:9000</value>
     <description>HDFS 的访问路径</description>
    </property>
         </configuration>
   4.3.3 修改hdfs-site.xml
         <configuration>
    <property>
     <name>dfs.replication</name>
     <value>1</value>
     <description>存储副本数</description>
    </property>
         </configuration>
   4.3.4 修改mapred-site.xml
         <configuration>
    <property>
     <name>mapred.job.tracker</name>
     <value>hadoop:9001</value>
     <description>JobTracker 的访问路径</description>
    </property>
         </configuration>
   // 如果是真实的集群环境还要配置另外两个文件，一个是masters另一个是slaves
   4.3.5 修改 masters
         执行 vim masters
         将namenode服务器的ip地址填入此处为192.168.226.100
   4.3.6 修改 slaves
         执行 vim slaves
         将datenode服务器的ip地址全部填入
         例如：192.168.226.2
         192.168.226.3
        192.168.226.4
   注意：配置文件中最好不要出现中文，否则会报错。
5.格式化文件系统
  5.1 执行 hadoop namenode -format
  5.2 启动进程 start-all.sh
  5.3 执行 jps 查看进程是否都开启了
          NameNode
   DataNode
    SecondaryNameNode
   TaskTracker
   JobTracker
   Jps

至此，伪分布文件系统搭建成功。

hadoop真实集群环境搭建：
在hadoop服务器上执行下面命令将相关配置导入datenode服务器中如果有多个都使用如下方法。
前提是在没台机器上都自己绑定好了主机名，绑定主机名执行命令 vi /etc/sysconfig/network
scp –rq /usr/local/jdk hadoop1:/usr/local
scp –rq /usr/local/hadoop hadoop1:/usr/local
scp –rq /etc/profile hadoop1:/etc
scp -rq /etc/hosts hadoop1:/etc

至于SSH无密码互相登录~~~~ 这个没有真实的集群环境可供实验，目前停留在资料上所描述的情况，
这里就不详细赘述了，百度即可。

vi 操作配置文件的部分使用方法

打开文件后按a或者i进行编辑

按esc退到命令状态

按X删除当前光标字符

按U恢复上一次修改

按H左移

按L右移

按J下移

按K上移

按shift+:+wq保存退出

按shift+:+q!退出不保存

ubuntu重启网卡的方法

sudo ln -s /lib/init/upstart-job /etc/init.d/network-manager

然后就可以使用
/etc/init.d/network-manager restart
重启网卡了

ubuntu更改主机名

vi /etc/hostname

1 0