大数据技术基础(笔记)

来源:互联网 发布:淘宝开店描述一下你的小铺怎么写 编辑:程序博客网 时间:2024/04/29 14:57

企业面临的挑战之一是:传递大数据。传递大数据受限制于IT基础设施,需要解决大数据的规模和动态性问题。

  • 与大数据有关的不同架构思想
  • 大数据技术和它的组件

设计原则

大数据的功能需求:
1. 采集数据
2. 组织数据
3. 集成数据
4. 分析数据
5. 按照分析结果执行操作

其他需求:
1. 架构支持,强大的运算能力和速度也非常重要
2.支持海量数据的存储
3.也需要有适当的冗余,以防产生意外的延时和故障
4.基础设施软件
5.操作软件
6.管理软件
7.定义明确的应用软件接口(API)
8.软件开发工具

技术栈:大数据技术框架
这里写图片描述
具有若干个组件,可以实现管理大数据的特定功能,这些组件按照层来聚集,每一层执行自己的工作。
在大数据上串行工作。

架构中的八个关键层为:
- 冗余物理基础层,由硬件和网络元件组成
- 安全基础层,它保证数据访问,应用访问和数据的安全性
- 应用程序和因特网的接口与供给层,这是一个覆盖层,为栈的所有组件提供了一个双向的访问通道
- 数据库操作层,它包括数据库引擎,包含与商业有关的数据元件的集合
- 数据整理服务与工具层,它可以在上下文相关的收集中,帮助捕捉验证以及组装各种大数据的元件
- 分析数据仓库层,有助于简化创建数据报告和可视化
- 分析层,这个层可以使数据得到处理,并且提供友好的信息展示
- 大数据应用层,支持商业大数据的自定义应用

各种常见的技术架构:云计算,虚拟化,最流行的大数据技术框架-hadoop(开源框架,高度扩展,冗余数据存储及可用于执行各类大规模元算的计算项目)

大数据实现的重要原则
- 性能:你需要系统如何响应
- 可用性:你是否需要一个随时都百分之百可用的服务
- 可扩展性:你的架构需要有多大,你需要多大的计算能力
- 灵活性:你能多快将资源加入到架构中
- 代价:你有多少预算

物理基础决定了实事项目的成败
冗余物理基础层的三个部分:
- 物理冗余网络:
(1)物理实现必须具有伸缩性(目的:一般网络任务+冗余且有能力适应数据输入输出的精确性和规模性)
(2)提供监视功能(目的:为了处理网络流量的波动)
- 管理硬件:存储和服务器(为了有足够的容量和速度来完成大数据的各种预期功能)
(1)存储
(2)服务器
- 基础设施运营
(1)最佳性能
(2)灵活性
(3)预测和防止灾难性故障
(4)维持数据的完整性

安全基础层
挑战:
- 数据存取和应用访问(权限)
- 数据加密(负载增大,所以需要设置安全级别,只加密需要加密的数据)
- 威胁检测的挑战

应用程序和因特网的接口与供给层
管理着数据从内外部的反馈。由于大数据十分依赖于多来源的数据采集,这一层对大数据的实现十分重要。接口存在于每一层栈的每一层之间,没有这一层,大数据将无法实现

数据库操作层
大数据环境的核心:快速的,可扩展的,可靠的数据库引擎
选择数据库引擎
选择数据库查询语言

数据整理服务与工具层
包括一个工具和技术构成的生态圈,用来收集和组装数据从而为后续分析做准备
技术包括:
- 分布式文件系统:数据流的分解 提供足够的规模和存储能力
- 序列化服务:持续数据的存储和多语言远程调用
- 协调服务:用于构建分布式应用
- 抽取,转化,加载工具:用于非结构化数据的加载和转换
- 工作流服务:用于作业的调度,提供跨层的同步进程的架构

分析数据仓库层
数据通过大量排序处理后,提供给用户端的信息必须是用户友好的形式。这些数据仓库和数据中心提供压缩多分区以及大规模并行处理结构。为数据分析和揭示规律而准备的。

分析层
三类工具:
- 分析和高级分析工具(这些工具可以进入数据仓库内部处理数据以备以后使用,例如做预测分析和情感分析)
- 数据报告和仪表盘(提供源于各处的信息的用户友好展示)
- 可视化(允许商业用户通过各种可视化技术来观察数据的变化,包括思维导图,热力图,信息图和连接图)

大数据应用层
应用是水平的,也可以是垂直的

0 0