大数据_各章概述
来源:互联网 发布:中老年春秋女上衣淘宝 编辑:程序博客网 时间:2024/05/21 21:44
一、各章概述(Hadoop部分) (一)、Hadoop的起源与背景知识 1、什么是大数据?两个例子、大数据的核心问题是什么? 举例:(1)商品推荐:问题1:大量的订单如何存储? 问题2:大量的订单如何计算? (2)天气预报:问题1:大量的天气数据如何存储? 问题2:大量的天气数据如何计算? 大数据的核心问题:(1)数据的存储:分布式文件系统(分布式存储) (2)数据的计算:分布式计算 2、概念:数据仓库(Data warehouse) (1)我们可以把Hadoop和Spark看成是数据仓库的一种实现方式 (2)数据仓库就是一个数据库,一般只做select (3)重要:掌握数据仓库搭建的过程 (4)数据仓库又是一种OLAP的应用系统 3、概念:OLTP和OLAP (1)OLTP:online transaction processing 联机事务处理 事物(acid 原子性、隔离性、持久性、一致性) (2)OLAP:online analytic processing 联机分析处理 ------> 一般:不会修改(删除)数据 4、(最重要的内容)Google的几篇论文:3篇 (1)GFS:Google File System -----> HDFS ----> 解决:数据的存储 (2)MapReduce计算模型 -----> Hadoop MapReduce ----> 解决:数据的计算 (3)BigTable大表 -----> HBase是NoSQL数据库 (二)、实验环境(见下边) (三)、Apache Hadoop的体系结构(重要):实现Google的思想论文 1、HDFS:Hadoop Distributed File System (*)主从结构 (*)主节点:NameNode名称节点 (*)从节点:DataNode数据节点 (*)SecondaryNameNode:第二名称节点 2、Yarn:是一个容器,运行MapReduce程序 (*)主从结构 (*)主节点:ResourceManager 资源管理器 (*)从节点:NodeManager 节点管理器 3、HBase:需要单独安装(在Hadoop安装包里面没有HBase,所以需要单独安装) (*)主从结构 (*)主节点:HMaster (*)从节点:RegionServer (四)、Hadoop 2.X的安装与配置 Hadoop有三种安装模式 1、本地模式 一台Linux 2、伪分布模式 一台Linux 3、全分布模式 三台Linux 4、掌握免密码登录的原理和配置 (五)、Hadoop应用案例分析 1、大数据背景下,企业级系统的架构的变化 2、HBase进行日志分析 3、了解:Hadoop在淘宝的应用 (六)、HDFS:Hadoop的分布式文件系统,数据存储 1、操作HDFS:(1)命令行 (2)Java API (3)网页:Web Console 2、原理:数据上传的过程 数据下载的过程 3、HDFS的底层实现:RPC和Java动态代理 RPC:remote procedure call(远程过程调用) 4、高级特性 (*)回收站 (*)快照snapshot:是一种备份 (*)配额quota:(1)名称配额 (2)空间配额 (*)安全模式:safemode (*)权限 (七)、MapReduce:是一个计算模型,可以用Java来实现 1、Demo:经典WordCount 2、重点:MapReduce处理数据的过程 3、原理:Yarn执行MapReduce的过程 4、MapReduce的高级特性 (*)序列化 (*)排序 (*)分区 (*)合并 5、MapReduce的核心:Shuffle(洗牌) 6、编程案例: (*)排序:order by (*)去重:distinct (*)多表查询 (*)倒排索引 补充:MySQL数据库 (八)、Hive:蜂巢 数据分析的引擎:翻译器 SQL语句 ------翻译成---------> MapReduce 程序 (九)、Pig: 猪 数据分析的引擎:翻译器 PigLatin语言 ---翻译成---> MapReduce 程序 (十)、HBase: NoSQL数据库 1、是基于Hadoop之上的NoSQL 2、体系结构:HMaster、RegionServer 3、搭建:本地模式、伪分布模式、全分布模式 4、操作:命令行(sql语句)、Java API、Web Console 5、过滤器:实现复杂的查询 6、HBase上的MapReduce (十一)、Sqoop:数据采集引擎,采集关系型数据库中的数据 (十二)、Flume:数据采集引擎,采集日志 (十三)、HUE:基于Web的管理工具 (十四)、ZooKeeper: 动物园管理者,相当于是一个”数据库“,实现HA(High Avaiblity高可用性) (十五)、Hadoop的集群和HA 1、HDFS的联盟(Federation) 2、Hadoop的HA(High Avaiblity高可用性) (十六)、Redis:基于内存的NoSQL数据库,提高性能 (十七)、Storm:处理流式数据(实时计算) 集成Storm和Redis
实验环境
数据仓库的搭建过程
分布式文件系统(分布式存储):NameNode和SecondaryNameNode 这两者之间没有关系。
机架感知
搭建Hadoop环境需要三台机器:nameNode和SecondaryNameNode在一台机器上;数据节点的话,两个硬盘在一台机器上,另外一块硬盘在一台机器上。因此总共需要三台机器。
对倒排索引的理解:按照abcd排序
阅读全文
0 0
- 大数据_各章概述
- 大数据 第二章 概述大数据各章概要
- “NASA”计划背后_阿里巴巴大数据系统架构概述
- 大数据算法概述
- 大数据概述
- 大数据算法概述
- 大数据概述1
- 大数据概述
- 大数据概述
- 大数据概述
- 大数据概述1
- 大数据概述
- 大数据-spark概述
- 大数据的概述
- hadoop大数据概述
- 大数据概述
- android数据存储_概述
- 分而治之_大数据
- CoreDraw画图方法汇总(论文/Paper)
- Kaggle如何入门
- 策略设计模式
- 将Eclipse的ctrl + k和ctrl + shift + k功能移到IDEA中
- E盘操作无法完成,因为磁盘管理控制台视图不是最新状态,要怎么恢复资料
- 大数据_各章概述
- JSP中输入超长网址不换行
- 树状数组
- 产品经理不再纸上谈兵——APP表单设计技巧
- java android Socket通信 发送以及接受
- C#汉字转拼音类
- RGB与HSV等的转换
- 阻止 android webview 中的链接跳出APP(即跳转到系统浏览器)
- 开发中使用临时表的应用场景以及注意事项