大数据基本概念
来源:互联网 发布:淘宝艺术照服装 编辑:程序博客网 时间:2024/06/05 16:35
大数据概念
- 结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。
- 非结构化数据:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。
- 大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
- 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息
- 种类(Variety):数据类型的多样性
- 速度(Velocity):指获得数据的速度
- 可变性(Variability):妨碍了处理和有效地管理数据的过程
- 真实性(Veracity):数据的质量
- 价值(value):合理运用大数据,以低成本创造高价值
数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
数据仓库往往有如下几点特点:
1.效率足够高。
2.数据质量。
3.扩展性。
4.面向主题
cap理论
一组websevrice后台运行着众多的server,对service的读写会反应到后台的server集群,
并对CAP进行了定义:
分布式系统的CAP理论:理论首先把分布式系统中的三个特性进行了如下归纳:
一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于
所有节点访问同一份最新的数据副本)
可用性(A):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。(对数据更新具备高可用性)
分区容错性(P):以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在C和A之间做出选择。
阅读全文
0 0
- 大数据基本概念(1)
- 大数据基本概念
- 大数据一些基本概念
- 大数据基本概念学习
- 大数据分析的基本概念
- 大数据基本概念及Hadoop技术基础
- 大数据和机器学习等基本概念
- 大数据分析-社交网络分析-图分析-基本概念
- 大数据与机器学习中基本概念总结
- 大数据1-Hbase原理、基本概念、基本架构
- 大数据学习笔记——Hadoop1.x基本概念和安装
- 数据库数据基础--基本概念
- 数据挖掘-基本概念
- 数据转换服务基本概念
- 数据挖掘中的基本概念
- 数据挖掘基本概念
- 数据类型,数据基本概念
- 数据泵(一)-基本概念
- 嵌入式学习笔记(第五天)C语言续
- Deep Learning 学习笔记
- Educational Codeforces Round 25
- 大数据基本概念(1)
- Mapreduce中的分区Partitioner
- 大数据基本概念
- 字节对齐和位域
- hibernate--MYSQL建表时type=InnoDB和Engine=InnoDB注意点
- Redux或mobx:给我们带来的革新
- mapreduce数据压缩
- Java高级之数据库编程
- c语言基础——指针数组
- The effect of parameter class_weight on linear SVM classifier
- `## 将一个整数插入到已经按从小到大排序好的整型数组里##