大数据学习一: 需要理解的基础概念
来源:互联网 发布:管家婆数据恢复 编辑:程序博客网 时间:2024/06/05 00:55
什么是大数据
一般指大到使用当前的软件,技术无法在特定的时间内实现数据的读取,存储,计算等相关操作
对大数据的处理方式
1 采用分布式的思想解决办法来处理大数据
2 使用分布式的文件系统来解决大数据的快速,准确存储和读取的挑战
3 使用分布式的框架来解决大数据的分析
hadoop
1主要的组件
(1)common:底层核心模块
(2)HDFS:分布式文件系统,负责文件的分布式存储
(3)YARN :资源分配和调度的平台,资源指集群中各节点的cpu,内存,网络带宽等;
(4) MapReduce :一个分布式计算模型(框架),可以实现分布式计算
(5)HBase :一个分布式的面向列的数据库
(6)Hive :一个分布式的数据仓库工具
HDFS
1概念
2 主要进程和运行原理
1. NameNode
(1)记录文件是如何分割成数据块,以及存储数据快数据节点的信息
(2) 对内存和I/O进行集中管理
(3)运行在master(主节点)上
2. DataNode
(1) 负责将HDFS数据块读写到本地文件系统中
(2)当客户端有读写要求时 namenode告诉客户端去哪个datanode进行读写的操作
客户端直接可以在该DataNode进行操作
(3)运行在slave(子节点)上
3 特点
(1)高容错性
(2)能提供高吞吐量的数据访问
(3)非常适合在大规模数据集上进行访问
hbase定义
1是分布式的面向列的数据库 支持对海量数据进行随机的及时的访问
2 不属于关系型数据库 nosql 数据以key value的形式进行存储
3 数据保存在hdfs上
4具有很强的扩展性
6HBASE 中点数据会有一个时间戳与之对应 因此同一个cell中的数据可以有多个副本
(1)即可以限定每个单元格保存的副本的数量
(2)也可以限定只保存一段时间的副本
7 hbase的查询是面向列的
8数据文件的存放是以列为单位的 一个列的数据会被存放在同一个节点上
9实际中
1.数据设计时 减少列族的数量
2 重点设计rowkey hbase中的数据查询是基于rowkey的 rowkey
阅读全文
0 0
- 大数据学习一: 需要理解的基础概念
- 大数据基础概念
- 机器学习----基础概念的理解
- 大数据学习的小概念
- 基础学习--表的概念(一)
- 大数据的概念
- 大数据的概念
- 大数据的概念
- 机器学习基础概念理解
- 小白都能理解的数据分析和大数据(一)
- SpringMVC学习:一、基础概念
- caffe学习笔记(一)深度学习的基础概念
- 大数据入门(基础概念)
- 大数据基础概念(1)
- 大数据学习一
- 大数据学习、一
- 胖子哥的大数据之路(一)-数据仓库也需要大数据
- 一些需要理解好的概念
- 大数因数分解Pollard_rho 算法
- Verilog HDL-3
- html中的video标签 方法_事件汇总
- Substance Painter 2017(3D贴图绘制工具)官方破解版V2017.4.0.1943下载 | substance painter 下载
- 面向对象编程(继承,封装,多态)
- 大数据学习一: 需要理解的基础概念
- LeetCode基础--二叉树--层次遍历
- 开始SDUT OJ提高实验—动态规划,小总结Round#2
- 优达学城/机器人人工智能/第一章汽车定位作业解析
- 面向对象
- html中控制video标签全屏
- 中间交付个人总结
- 编程思想 | 自顶向下,逐步求精
- 使用flex实现页面布局