大数据学习、一

来源：互联网发布：nginx转发配置编辑：程序博客网时间：2024/05/16 08:43

问题一：大数据是什么？

当面对海量的、高增长率和多样化的数据信息时，我们无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理，所以需要一种新的处理模式来解决这些问题，大数据就是就是这么一种新的模式，有四个特点：Velocity高速（快速的数据流转）、Variety多样（多样性的数据类型），Volume大量（海量的数据规模）Value（巨大的数据价值）。（Veracity真实性）。

问题二：结构化、非结构化数据的区别？

结构化数据：也称为行数据，可以用二维表结构来逻辑表达和实现的数据，严格遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。非结构化数据：不适合用数据库二维表来表达和实现，包括所有格式的办公文档、xml、html、各类报表、图片和音频、视频信息等等。非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理。

问题三：数据单位？
数据单位进率1024（2的十次方）
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB

4.大数据的工作流程：

1. 大数据处理之一：采集
大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。
比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，
它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2. 大数据处理之二：导入/预处理
虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，
或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，
来满足部分业务的实时计算需求。
导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

3. 大数据处理之三：统计/分析
统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，
在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于 MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

4. 大数据处理之四：挖掘
与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，
从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。
该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。

5.计算模式：迭代流批处理交换式...

我们将大数据处理按处理时间的跨度要求分为以下几类

基于实时数据流的处理，通常的时间跨度在数百毫秒到数秒之间（流处理）

基于历史数据的交互式查询，通常时间跨度在数十秒到数分钟之间（交互式）

复杂的批量数据处理，通常的时间跨度在几分钟到数小时之间（批处理）

迭代计算：迭代是重复反馈过程的活动，其目的通常是为了逼近所需目标或结果。每一次对过程的重复称为一次“迭代”，而每一次迭代得到的结果会作为下一次迭代的初始值。

流式计算：流式计算是一种高实时性的计算模式，需要对一定时间窗口内应用系统产生的新数据完成实时的计算处理，避免造成数据堆积和丢失。
流式计算的一个特点是数据运动、运算不动，不同的运算节点常常绑定在不同的服务器上。

批处理：

批处理模式中使用的数据集通常符合下列特征…

· 有界：批处理数据集代表数据的有限集合

· 持久：数据通常始终存储在某种类型的持久存储位置中

· 大量：批处理操作通常是处理极为海量数据集的唯一方法

批处理非常适合需要访问全套记录才能完成的计算工作。例如在计算总数和平均数时，必须将数据集作为一个整体加以处理，而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据维持自己的状态。

需要处理大量数据的任务通常最适合用批处理操作进行处理。无论直接从持久存储设备处理数据集，或首先将数据集载入内存，批处理系统在设计过程中就充分考虑了数据的量，可提供充足的处理资源。由于批处理在应对大量持久数据方面的表现极为出色，因此经常被用于对历史数据进行分析。

大量数据的处理需要付出大量时间，因此批处理不适合对处理时间要求较高的场合。

交互式：

基于历史数据的交互式查询，通常时间跨度在数十秒到数分钟之间（交互式）

6.数据库类型
数据库通常分为层次式数据库、网络式数据库和关系式数据库三种。

⑴层次结构模型

层次结构模型实质上是一种有根结点的定向有序树(在数学中"树"被定义为一个无回的连通图)。下图是一个高等学校的组织结构图。这个组织结构图像一棵树，校部就是树根(称为根结点)，各系、专业、教师、学生等为枝点(称为结点)，树根与枝点之间的联系称为边，树根与边之比为1:N，即树根只有一个，树枝有N个。

按照层次模型建立的数据库系统称为层次模型数据库系统。IMS(Information Management System)是其典型代表。

⑵网状结构模型

按照网状数据结构建立的数据库系统称为网状数据库系统，其典型代表是DBTG(Database Task Group)。用数学方法可将网状数据结构转化为层次数据结构。

⑶ 关系结构模型

关系式数据结构把一些复杂的数据结构归结为简单的二元关系(即二维表格形式)。例如某单位的职工关系就是一个二元关系。

由关系数据结构组成的数据库系统被称为关系数据库系统。

在关系数据库中，对数据的操作几乎全部建立在一个或多个关系表格上，通过对这些关系表格的分类、合并、连接或选取等运算来实现数据的管理。

7.CDH

CDH (Cloudera的发行版，包括Apache Hadoop) 提供了一种强大的新数据平台，使公司得以从所有数据(结构化的和非结构化的)中获得前所未有的洞察。使用CDH管理大数据的机构数量远远超过其他Hadoop发行版的总和。作为Cloudera 企业版的一个关键组成部分和一个企业数据平台架构，CDH代表了Hadoop的核心元素 – 可扩展存储与分布式计算 – 以及必要的企业能力，比如安全性、高可用性以及与最广泛的软硬件解决方案的集成。对于想要寻找一个稳定的、经过验证的开源大数据管理解决方案，不愿被专有供应商锁定的企业来说，CDH是理想的选择。它是一个独特的解决方案，企业在使用Hadoop于生产环境中的同时，还能获得来自开源社区的持续创新力。
8.cap原理

分布式系统的CAP理论：理论首先把分布式系统中的三个特性进行了如下归纳：
　　● 一致性（C）：在分布式系统中的所有数据备份，在同一时刻是否同样的值。（等同于所有节点访问同一份最新的数据副本）

● 可用性（A）：在集群中一部分节点故障后，集群整体是否还能响应客户端的读写请求。（对数据更新具备高可用性）

● 分区容错性（P）：以实际效果而言，分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性，就意味着发生了分区的情况，必须就当前操作在C和A之间做出选择
CAP原则又称CAP定理，指的是在一个分布式系统中， Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），三者不可得兼^[1] 。
9.

hadoop技术栈 hdfs,mapreduce,hive,hbase
10.分析型、事务型

事务型数据库主要是实时的，面向应用的数据库，响应及时性要求很高，只关注最近一段时间的数据。就是平时搭建的服务都叫事务型数据库。分析型数据库主要是用于在大量数据中分析规律的，一般存储的数据时间跨度长，数据量大，对实时性要求不高，通过查询分析规律趋势，用于产品决策等。两者所面向的目标不一样。

阅读全文

0 0