作业7.17

来源:互联网 发布:mac 未能存储文稿 编辑:程序博客网 时间:2024/06/16 21:01

1.结构化与非结构化区别

结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

非结构化数据:包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等等。

2.大数据是什么,有什么特点?

大数据指一般的软件工具难以捕捉、管理和分析的大容量数据。

大数据有4V特征:Volume(大量)、Velocity(实时)、Variety(多样)、Value(价值)。

大数据(big data),或称海量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

3.数据仓库

数据仓库英文名称为Data Warehouse,可简写为DW或DWH,是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

数据库:传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

数据仓库:数据仓库系统的主要应用主要是OLAP(On-Line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

4.cap理论

CAP理论指出:一个分布式系统不可能同时满足一致性(Consistency),可用性(Availibility) 和分区容忍性(Partition Tolerance)这三个需求。最多只能同时满足其中的两个。

安装hadoop

环境:VM10+ubuntu64作为实验环境

为操作系统添加hadoop用户并设置密码
之后对Hadoop的操作均由hadoop用户完成

创建hadoop用户执行命令 # adduser  hadoop    #  adduser  hadoop --add_extra_groups sudo

后续步骤安装软件目录 /home/hadoop/安装包

连接新建的 hadoop 用户
确认 sudo su 命令可用

1.安装JDK
我们可以使用两种方法安装JDK,一种是在线安装。另一种是先下载JDK安装包然后再离线安装。

离线安装:
把离线包拷入到ubuntu的当前用户hadoop的software文件夹下,然后执行命令安装。

$mkdir   ~/software$tar  -zxvf   jdk-7u80-linux-x64.tar.gz   $mv  jdk1.7.0_80/  ../jdk1.7

安装完jdk后,需要配置环境变量,把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。

执行命令# sudo   gedit  /etc/profile.d/java.sh打开/etc/profile文件在文件中添加如下配置export   JAVA_HOME=/home/ hadoop/ jdk1.7export   CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport   PATH=$JAVA_HOME/bin:$PATH
使profile文件修改配置生效执行命令$ source /etc/profile   $ java -version    

2.安装hadoop

拷贝到hadoop用户目录中,执行命令进行安装 执行命令tar   xvf   hadoop-2.6.0.tar.gzmv hadoop-2.6.0 ~

修改hadoop环境变量配置

执行命令  $sudo   gedit   /etc/profile.d/hadoop.sh
export HADOOP_HOME=/home/hadoop/hadoop-2.6.0export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATHexport PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH注意写配置值时,不要换行

使hadoop命令配置生效

执行命令source  /etc/profile 或注销再登录当前用户

启动Hadoop

进入到 /home/hadoop/hadoop-2.6.0/etc/hadoop目录执行命令$ cd hadoop-2.6.0/etc/hadoop/$ ls

编辑hadoop-env.sh文件,修改参数信息

执行命令$cd  hadoop-2.6.0/ etc/hadoop$sudo gedit hadoop-env.sh export JAVA_HOME=/home/hadoop/jdk1.7

使hadoop命令配置生效

执行命令source  /etc/profile 

测试Hadoop环境可用性

执行命令$ hadoop