Hadoop入门(一)概念与单机安装
来源:互联网 发布:如何选择阿里云esc镜像 编辑:程序博客网 时间:2024/06/05 08:41
(1)什么是大数据
大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。
(2)hadoop的定义
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
二、单机安装(Ubuntu14版)
1、安装配置jdk
A、在线安装:
B、离线安装
1)下载jdk-7u80-linux-x64.tar.gz
下载路径:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html
把离线包拷入到ubuntu的当前用户mk的software文件夹下,然后执行命令安装。
2)执行命令
mkdir ~/software
tar -zxvf jdk-7u80-linux-x64.tar.gz
mv jdk1.7.0_80/ software/jdk1.7.0_80
C、配置JDK环境变量JAVA_HOME
安装完jdk后,需要配置环境变量,把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。
1)配置环境变量
执行命令(后面java.sh不要有空格,如‘java.sh ’,否则读不了配置文件)
sudo gedit /etc/profile.d/java.sh
打开/etc/profile文件在文件中添加如下配置
export JAVA_HOME=/home/mk/software/jdk1.7.0_80
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH
注意:写配置值时,export语句的内容里面不要换行
2)验证配置
(1)使profile文件修改配置生效
执行命令:source /etc/profile
或者注销再登录当前用户
执行命令:sudo reboot
(2)验证java质量
执行命令 :java -version
2、安装hadoop
A、下载解压hadoop安装包
下载hadoop安装包hadoop-2.6.0.tar.gz
下载路径:http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
B、拷贝到hadoop用户目录中,执行命令进行安装
执行命令
tar xvf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 software/
C、修改hadoop环境变量配置
执行命令(后面hadoop.sh不要有空格,如‘hadoop.sh ’,否则读不了配置文件)
sudo gedit /etc/profile.d/hadoop.sh
hadoop.sh的内容
export HADOOP_HOME=/home/mk/software/hadoop-2.6.0
export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
注意:写配置值时,export语句的内容里面不要换行
D、验证配置
1)使hadoop命令配置生效
执行命令:source /etc/profile
或注销再登录当前用户
2) 验证:
hadoop version
3、启动Hadoop
A、进入到 /home/mk/soft/hadoop-2.6.0/etc/hadoop目录,查看配置文件
执行命令: cd soft/hadoop-2.6.0/etc/hadoop/
列出配置文件: ls
B、编辑/home/mk/soft/hadoop-2.6.0/etc/hadoop/hadoop-env.sh文件,修改参数信息
执行命令:cd soft/hadoop-2.6.0/ etc/hadoop
sudo gedit hadoop-env.sh
修改文件里面的export JAVA_HOME=${JAVA_HOME}为
export JAVA_HOME=/home/hadoop/jdk1.7.0_80
C、测试Hadoop环境可用性
执行命令 :hadoop
三、测试例子
题目:使用hadoop自带的hadoop-mapreduce-examples-2.6.0.jar对某目录下的文档进行单词数的统计
执行命令:
#切换到用户目录
cd /home/mk/
#在用户目录下创建input目录
mkdir input
#复制hadoop的配置文件进入input
cp $HADOOP_HOME/etc/hadoop/*.xml input/
#统计input目录里面的以dfs前缀的单词,保存结果在output目录
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'
#输出output目录的结果
cat output/*
结果:
- Hadoop入门(一)概念与单机安装
- Hadoop入门(一)概念与单机安装
- Hadoop入门-Hadoop安装(单机)
- Hadoop入门-Hadoop安装(单机)
- Hadoop入门(二):ZooKeeper单机安装
- HADOOP入门-单机模式安装HADOOP
- linux 安装hadoop 笔记(一)单机模式
- 在ubuntu中安装单机Hadoop(一)
- Hadoop安装(单机版本)
- 【Hadoop入门学习系列之一】Ubuntu下安装Hadoop(单机模式+伪分布模式)
- hadoop实战之安装与单机模式
- Hadoop单机模式的配置与安装
- 单机Hadoop的安装与使用
- Ubuntu配置hadoop单机+伪分布式环境+eclipse--安装hadoop(一)
- AWS上搭建Hadoop集群(一)——单机安装Hadoop
- 一、Hadoop单机版standalone的安装与配置(Hadoop1.2.1,CentOS6.5)
- Redis入门到精通-Redis安装与部署(单机)
- hadoop单机快速入门
- 算法七之希尔排序
- 算法八之归并排序
- 3D视频轮播插件——web前端
- HDFS 的dao
- JAVA反射机制
- Hadoop入门(一)概念与单机安装
- Hadoop入门(二)集群安装
- 面向对象与面向过程
- Spring入门(一)之简介
- Spring入门(二)之下载与安装
- Spring入门(三)之IoC
- java作业
- Shell入门(一)之简介
- Shell入门(二)之变量