大数据学习、一

来源:互联网 发布:nginx转发配置 编辑:程序博客网 时间:2024/05/16 08:43

问题一:大数据是什么?

       当面对海量的、高增长率和多样化的数据信息时,我们无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理,所以需要一种新的处理模式来解决这些问题,大数据就是就是这么一种新的模式,有四个特点:Velocity高速(快速的数据流转)、Variety多样(多样性的数据类型),Volume大量(海量的数据规模)Value(巨大的数据价值)。(Veracity真实性)。


问题二:结构化、非结构化数据的区别?

       结构化数据:也称为行数据,可以用二维表结构来逻辑表达和实现的数据,严格遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。非结构化数据:不适合用数据库二维表来表达和实现,包括所有格式的办公文档、xml、html、各类报表、图片和音频、视频信息等等。非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理。


问题三:数据单位?
数据单位  进率1024(2的十次方)
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

      

4.大数据的工作流程:

1. 大数据处理之一:采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的 数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。
比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除 此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户 来进行访问和操作,比如火车票售票网站和淘宝,
它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间 进行负载均衡和分片的确是需要深入的思考和设计。

2. 大数据处理之二:导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这 些来自前端的数据导入到一个集中的大型分布式数据库,
或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使 用来自Twitter的Storm来对数据进行流式计算,
来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

3. 大数据处理之三:统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通 的分析和分类汇总等,以满足大多数常见的分析需求,
在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于 MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

4. 大数据处理之四:挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数 据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,
从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于 统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。
该过程的特点和挑战主要是用于挖掘的算法很复杂,并 且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

5.计算模式:迭代 流 批处理 交换式...

我们将大数据处理按处理时间的跨度要求分为以下几类

基于实时数据流的处理,通常的时间跨度在数百毫秒到数秒之间(流处理)

基于历史数据的交互式查询,通常时间跨度在数十秒到数分钟之间(交互式)

复杂的批量数据处理,通常的时间跨度在几分钟到数小时之间(批处理)

迭代计算:迭代是重复反馈过程的活动,其目的通常是为了逼近所需目标或结果。每一次对过程的重复称为一次“迭代”,而每一次迭代得到的结果会作为下一次迭代的初始值。

流式计算:流式计算是一种高实时性的计算模式,需要对一定时间窗口内应用系统产生的新数据完成实时的计算处理,避免造成数据堆积和丢失。
流式计算的一个特点是数据运动、运算不动,不同的运算节点常常绑定在不同的服务器上。

批处理:

批处理模式中使用的数据集通常符合下列特征…

· 有界:批处理数据集代表数据的有限集合

· 持久:数据通常始终存储在某种类型的持久存储位置中

· 大量:批处理操作通常是处理极为海量数据集的唯一方法

批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据维持自己的状态。

需要处理大量数据的任务通常最适合用批处理操作进行处理。无论直接从持久存储设备处理数据集,或首先将数据集载入内存,批处理系统在设计过程中就充分考虑了数据的量,可提供充足的处理资源。由于批处理在应对大量持久数据方面的表现极为出色,因此经常被用于对历史数据进行分析。

大量数据的处理需要付出大量时间,因此批处理不适合对处理时间要求较高的场合。

交互式:

基于历史数据的交互式查询,通常时间跨度在数十秒到数分钟之间(交互式)


6.数据库类型
数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。
⑴层次结构模型
层次结构模型实质上是一种有根结点的定向有序树(在数学中"树"被定义为一个无回的连通图)。下图是一个高等学校的组织结构图。这个组织结构图像一棵树,校部就是树根(称为根结点),各系、专业、教师、学生等为枝点(称为结点),树根与枝点之间的联系称为边,树根与边之比为1:N,即树根只有一个,树枝有N个。
按照层次模型建立的数据库系统称为层次模型数据库系统。IMS(Information Management System)是其典型代表。
⑵网状结构模型
按照网状数据结构建立的数据库系统称为网状数据库系统,其典型代表是DBTG(Database Task Group)。用数学方法可将网状数据结构转化为层次数据结构。
⑶ 关系结构模型
关系式数据结构把一些复杂的数据结构归结为简单的二元关系(即二维表格形式)。例如某单位的职工关系就是一个二元关系。
由关系数据结构组成的数据库系统被称为关系数据库系统。
在关系数据库中,对数据的操作几乎全部建立在一个或多个关系表格上,通过对这些关系表格的分类、合并、连接或选取等运算来实现数据的管理。

7.CDH
CDH (Cloudera的发行版,包括Apache Hadoop) 提供了一种强大的新数据平台,使公司得以从所有数据(结构化的和非结构化的)中获得前所未有的洞察。使用CDH管理大数据的机构数量远远超过其他Hadoop发行版的总和。作为Cloudera 企业版的一个关键组成部分和一个企业数据平台架构,CDH代表了Hadoop的核心元素 – 可扩展存储与分布式计算 – 以及必要的企业能力,比如安全性、高可用性以及与最广泛的软硬件解决方案的集成。 对于想要寻找一个稳定的、经过验证的开源大数据管理解决方案,不愿被专有供应商锁定的企业来说,CDH是理想的选择。它是一个独特的解决方案,企业在使用Hadoop于生产环境中的同时,还能获得来自开源社区的持续创新力。
8.cap原理
分布式系统的CAP理论:理论首先把分布式系统中的三个特性进行了如下归纳:
  ● 一致性(C):在分布式系统中的所有数据备份,在同一时刻是否同样的值。(等同于所有节点访问同一份最新的数据副本)
● 可用性(A):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求。(对数据更新具备高可用性)
● 分区容错性(P):以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在C和A之间做出选择
CAP原则又称CAP定理,指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼[1] 。
9.
hadoop技术栈 hdfs,mapreduce,hive,hbase
10.分析型、事务型
事务型数据库主要是实时的,面向应用的数据库,响应及时性要求很高,只关注最近一段时间的数据。就是平时搭建的服务都叫事务型数据库。分析型数据库主要是用于在大量数据中分析规律的,一般存储的数据时间跨度长,数据量大,对实时性要求不高,通过查询分析规律趋势,用于产品决策等。两者所面向的目标不一样。



原创粉丝点击