大数据学习一：需要理解的基础概念

来源：互联网发布：管家婆数据恢复编辑：程序博客网时间：2024/06/05 00:55

什么是大数据

一般指大到使用当前的软件，技术无法在特定的时间内实现数据的读取，存储，计算等相关操作

对大数据的处理方式

1 采用分布式的思想解决办法来处理大数据

2 使用分布式的文件系统来解决大数据的快速，准确存储和读取的挑战

3 使用分布式的框架来解决大数据的分析

hadoop

1主要的组件

（1）common：底层核心模块

（2）HDFS：分布式文件系统，负责文件的分布式存储

（3）YARN ：资源分配和调度的平台，资源指集群中各节点的cpu，内存，网络带宽等;

（4） MapReduce ：一个分布式计算模型（框架），可以实现分布式计算

（5）HBase ：一个分布式的面向列的数据库

（6）Hive ：一个分布式的数据仓库工具

HDFS

1概念

2 主要进程和运行原理

1. NameNode

（1）记录文件是如何分割成数据块，以及存储数据快数据节点的信息

（2） 对内存和I/O进行集中管理

（3）运行在master（主节点）上

2. DataNode 

(1) 负责将HDFS数据块读写到本地文件系统中

（2）当客户端有读写要求时 namenode告诉客户端去哪个datanode进行读写的操作

客户端直接可以在该DataNode进行操作

（3）运行在slave（子节点）上

3 特点

（1）高容错性

（2）能提供高吞吐量的数据访问

（3）非常适合在大规模数据集上进行访问

hbase定义

1是分布式的面向列的数据库 支持对海量数据进行随机的及时的访问

2 不属于关系型数据库 nosql 数据以key value的形式进行存储

3 数据保存在hdfs上

4具有很强的扩展性

6HBASE 中点数据会有一个时间戳与之对应 因此同一个cell中的数据可以有多个副本

（1）即可以限定每个单元格保存的副本的数量

（2）也可以限定只保存一段时间的副本

7 hbase的查询是面向列的

8数据文件的存放是以列为单位的 一个列的数据会被存放在同一个节点上

9实际中

1.数据设计时 减少列族的数量

2 重点设计rowkey hbase中的数据查询是基于rowkey的 rowkey

阅读全文

0 0

大数据学习一： 需要理解的基础概念