各种大数据工具架构
来源:互联网 发布:淘宝网app电脑版 编辑:程序博客网 时间:2024/06/06 13:58
大数据的概念
大数据的特点可以用4个V来描述:Volume(大)、Variety(多)、Velocity(快)、Value(低)
大数据管理:
Hadoop是Google GFS以及MapReducc系统的开源实现,用户可以在不了解分布式底层细节的情况下开发分布式程序,但是无法做到动态和实时的分析。
流计算系统能够处理实时的数据流,实时分析系统主要采用传统的MPP技术从海量数据中实时提取有价值的汇总信息::
大数据理解:
大数据内部以及数据和数据之间关系的理解涉及数据挖掘、机器学习、多媒体理解等多个前沿领域的技术
大数据应用:
大数据技术应用在互联网营销将产生彭妾的商业价值
MapReduce
MapReduce框架会自动处理数据划分、多机并行执行、任务之间的协调,并且能够处理某个任务执行失败或者机器出现故障的情况。
框架实现时主要做了两点优化:
本地化:尽量将任务分配给离输入文件最近的MaP进程,
备份任务:如果某个Map或者Reduce任务执行的时间较长,主控进程会生成一个该任务的备份并分配给另外一个空闲的Map或者Reduce进程。
框架有效地解决了海量数据的离线批处理问题,
Google Tenzing:基于MapReduce模型构建SQL执行引擎、直接用SQL处理大数据
Microsoft Dryad:
Google Pregel:图像模型迭代计算
GoogleTenzing
MicrosoftDryad
GooglePregel
流式计算
流式计算解决在线聚合、在线过滤等问题,流式计算同时具有存储系统和计算系统的特点,
原理
流式计算强调的是数据流的实时性。
YahooS4
TwitterStorm
实时分析
MPP架构
并行数据库往往采用MPP架构
MPP架构是一种不共享的结构,每个节点可以运行自己的操作系统、数据库等。
常见的数据分布算法有两种:范围分区、哈希分区
EMCGreenplum
EMC公司研发的一款采用MPP架构的OLAP产品,底层基于开源的PostgreSQL数据库。
HPVertica
的学术研究项目C-Store的商业版本,
GoogleDremel
是Google的实时分析系统,可以扩展到上千台机器规模,处理PB级别的数据。
还是GoogleBigtable服务的底层存储和查询引擎。
- 各种大数据工具架构
- 大数据平台基础架构和常用处理工具
- 大数据架构hadoop
- 大数据 架构
- LinkedIn大数据架构
- 大数据Lambda架构
- 大数据架构hadoop
- 大数据架构预览
- 大数据架构概览
- 大数据架构
- 大数据架构
- manager大数据架构
- 大数据Lambda架构
- 大数据架构设计
- 大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术
- 大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术
- 大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术
- 大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术
- SpringMVC和Struts2的比较的优点
- win10如何修改系统文件夹名字
- 如何使用 Spring RestTemplate
- 我与python约个会:33.企业级开发进阶6:数据库操作
- MAC-安装与破解WebStorm(rn开发工具)
- 各种大数据工具架构
- Java IO流读取文件
- 在主方法中创建String型变量,将字符变量中的字母a替换成A后的结果输出
- 在Linux中以命令行方式安装 MySQL 5.7.11 for Linux Generic 二进制版本
- 小团队能做大系统:Cloud_Native云原生架构实践
- c++ shared_ptr指针实现
- 多态类基类析构函数定义为虚函数原因
- AsyncTask 解析
- 今天开始学习go语言了