大数据学习一: 需要理解的基础概念

来源:互联网 发布:管家婆数据恢复 编辑:程序博客网 时间:2024/06/05 00:55
什么是大数据
一般指大到使用当前的软件,技术无法在特定的时间内实现数据的读取,存储,计算等相关操作

对大数据的处理方式
1 采用分布式的思想解决办法来处理大数据
2 使用分布式的文件系统来解决大数据的快速,准确存储和读取的挑战
3 使用分布式的框架来解决大数据的分析

hadoop
1主要的组件
(1)common:底层核心模块
(2)HDFS:分布式文件系统,负责文件的分布式存储
(3)YARN :资源分配和调度的平台,资源指集群中各节点的cpu,内存,网络带宽等;
(4) MapReduce :一个分布式计算模型(框架),可以实现分布式计算
(5)HBase :一个分布式的面向列的数据库
(6)Hive :一个分布式的数据仓库工具


HDFS
1概念
2 主要进程和运行原理
1. NameNode
(1)记录文件是如何分割成数据块,以及存储数据快数据节点的信息
(2) 对内存和I/O进行集中管理
(3)运行在master(主节点)上
2. DataNode
(1) 负责将HDFS数据块读写到本地文件系统中
(2)当客户端有读写要求时 namenode告诉客户端去哪个datanode进行读写的操作
客户端直接可以在该DataNode进行操作
(3)运行在slave(子节点)上
3 特点
(1)高容错性
(2)能提供高吞吐量的数据访问
(3)非常适合在大规模数据集上进行访问

hbase定义
1是分布式的面向列的数据库 支持对海量数据进行随机的及时的访问
2 不属于关系型数据库 nosql 数据以key value的形式进行存储
3 数据保存在hdfs上
4具有很强的扩展性
6HBASE 中点数据会有一个时间戳与之对应 因此同一个cell中的数据可以有多个副本
(1)即可以限定每个单元格保存的副本的数量
(2)也可以限定只保存一段时间的副本
7 hbase的查询是面向列的
8数据文件的存放是以列为单位的 一个列的数据会被存放在同一个节点上
9实际中
1.数据设计时 减少列族的数量
2 重点设计rowkey hbase中的数据查询是基于rowkey的 rowkey