Hadoop入门(一)概念与单机安装

来源:互联网 发布:如何选择阿里云esc镜像 编辑:程序博客网 时间:2024/06/05 08:41
一、hadoop的概念

(1)什么是大数据

  大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。

 

(2)hadoop的定义

  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

  Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

 

二、单机安装(Ubuntu14版)

1、安装配置jdk

A、在线安装:

 

B、离线安装 

1)下载jdk-7u80-linux-x64.tar.gz

  下载路径:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html

  把离线包拷入到ubuntu的当前用户mk的software文件夹下,然后执行命令安装。


2)执行命令
  mkdir ~/software
  tar -zxvf jdk-7u80-linux-x64.tar.gz
  mv jdk1.7.0_80/ software/jdk1.7.0_80

 

C、配置JDK环境变量JAVA_HOME

安装完jdk后,需要配置环境变量,把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。

1)配置环境变量

执行命令(后面java.sh不要有空格,如‘java.sh ’,否则读不了配置文件)
  sudo gedit /etc/profile.d/java.sh

打开/etc/profile文件在文件中添加如下配置
  export JAVA_HOME=/home/mk/software/jdk1.7.0_80
  export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
  export PATH=$JAVA_HOME/bin:$PATH

注意:写配置值时,export语句的内容里面不要换行

 

2)验证配置

(1)使profile文件修改配置生效
  执行命令:source /etc/profile

   或者注销再登录当前用户

       执行命令:sudo reboot


(2)验证java质量

     执行命令 :java -version

 


 

2、安装hadoop

A、下载解压hadoop安装包

下载hadoop安装包hadoop-2.6.0.tar.gz

下载路径:http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz

 

B、拷贝到hadoop用户目录中,执行命令进行安装 

 执行命令
  tar xvf hadoop-2.6.0.tar.gz
  mv hadoop-2.6.0 software/

C、修改hadoop环境变量配置

 执行命令(后面hadoop.sh不要有空格,如‘hadoop.sh ’,否则读不了配置文件)
  sudo gedit /etc/profile.d/hadoop.sh

   hadoop.sh的内容

export HADOOP_HOME=/home/mk/software/hadoop-2.6.0
export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

  注意:写配置值时,export语句的内容里面不要换行

 D、验证配置

 1)使hadoop命令配置生效

   执行命令:source /etc/profile

  或注销再登录当前用户

  2) 验证:
  hadoop version

 

3、启动Hadoop 

A、进入到 /home/mk/soft/hadoop-2.6.0/etc/hadoop目录,查看配置文件
    执行命令: cd soft/hadoop-2.6.0/etc/hadoop/
    列出配置文件:  ls

 

B、编辑/home/mk/soft/hadoop-2.6.0/etc/hadoop/hadoop-env.sh文件,修改参数信息

执行命令:cd soft/hadoop-2.6.0/ etc/hadoop
            sudo gedit hadoop-env.sh 

修改文件里面的export JAVA_HOME=${JAVA_HOME}为
export JAVA_HOME=/home/hadoop/jdk1.7.0_80

 C、测试Hadoop环境可用性

  执行命令 :hadoop

 

三、测试例子

题目:使用hadoop自带的hadoop-mapreduce-examples-2.6.0.jar对某目录下的文档进行单词数的统计

执行命令:

#切换到用户目录

 cd /home/mk/

#在用户目录下创建input目录
 mkdir input

 #复制hadoop的配置文件进入input
 cp $HADOOP_HOME/etc/hadoop/*.xml input/

 #统计input目录里面的以dfs前缀的单词,保存结果在output目录
 hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'

 #输出output目录的结果
 cat output/*

结果: