初识大数据

来源：互联网发布：sqlserver已停止编辑：程序博客网时间：2024/05/21 22:53

一、结构化与非结构化数据类型

结构化数据类型：

用户定义的数据类型，它包含一些非源自的元素，更确切地说，这些数据类型是可以分割的，它们既可以单独使用，又可以在适当情况下作为一个独立的单元使用；

非结构化数据类型：

指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据（如数字、符号等信息），而且更适合处理分结构化数据（全文文本、图像、声音、影视、超媒体等信息）。

二、大数据概述

1、大数据：

指无法在一定时间范围内用常规软件进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长和多样化的信息资产。

2、大数据的5V特点（IBM提出）：

1）Volume大量

2）Velocity高速

3）Variety多样

4)Value低价值密度

5)Veracity真实性。

3、适用于大数据的技术：

大规模并行处理、数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

4、大数据的应用：

洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生；google流感趋势利用搜索管检测预测禽流感的散布等。

5、大数据的价值：

1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销

2) 做小而美模式的中小微企业可以利用大数据做服务转型

3) 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值

6、趋势：

1）数据的资源化；

2）与云计算的深度结合；

3）科学理论的突破；

4）数据可学和数据联盟的成立；

5）数据泄露泛滥；

6）数据管理成为核心竞争力；

7）数据质量是BI（商业智能）成功的关键；

8）数据生态系统复合化程度加强。

三、数据仓库

1、数据仓库（DW或DWH）：

为企业所有级别的决策制定过程，提供所有数据类型数据支持的战略集合。它是单个数据存储，处于分析性报告和决策支持目的而创建。为需要业务职能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制；

数据仓库是决策支持系统（dss）和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。其特征在于面向主题、集成性、稳定性和时变性。

2、数据仓库的特点：效率足够高、数据质量、扩展性、面向主题。

3、在数据仓库应用中主要使用的技术：并行、分区和数据压缩。

四、CAP理论

1、分布式领域CAP理论：
Consistency(一致性), 数据一致更新，所有数据变动都是同步的
Availability(可用性), 好的响应性能
Partition tolerance(分区容错性) 可靠性
定理：任何分布式系统只可同时满足二点，没法三者兼顾。

2、高可用、数据一致是很多系统设计的目标，但是分区又是不可避免的事情：

CA without P：如果不要求P（不允许分区），则C（强一致性）和A（可用性）是可以保证的。但其实分区不是你想不想的问题，而是始终会存在，因此CA的系统更多的是允许分区后各子系统依然保持CA。
CP without A：如果不要求A（可用），相当于每个请求都需要在Server之间强一致，而P（分区）会导致同步时间无限延长，如此CP也是可以保证的。很多传统的数据库分布式事务都属于这种模式。
AP wihtout C：要高可用并允许分区，则需放弃一致性。一旦分区发生，节点之间可能会失去联系，为了高可用，每个节点只能用本地数据提供服务，而这样会导致全局数据的不一致性。现在众多的NoSQL都属于此类。
3、如何看待？
首先肯定的是，CAP并不适合再作为一个适应任何场景的定理，它的正确性更加适合基于原子读写的NoSQL场景。质疑虽然很多，但很多质疑者只是偷欢概念，并没有解决各个因素之间的取舍问题。而无论如何C、A、P这个三个概念始终存在任何分布式系统，只是不同的模型会对其有不同的呈现，可能某些场景对三者之间的关系敏感，而另一些不敏感。在所有的质疑当中，质疑4是分析的比较中肯的，其清晰的概念分析该让我们对CAP有更深入的理解！
就像Lynch所说，现在分布式系统有很多特性，比如扩展性、优雅降级等，虽然时间的发展，或许这些也会被纳入研究范畴，而作为开发者，这都是我们需要考虑的问题，而不仅是CAP三者

阅读全文

0 0