hadoop 架构与基础

来源:互联网 发布:gui开发工具 windows 编辑:程序博客网 时间:2024/05/17 01:11

hadoop 架构与基础


大数据平台三大集群业务:

1.离线海量数据查询

2.算法数据挖掘与分析

3. 在线实时处理


hive支持的sql比spark层数多。



2000台hadoop服务公司, 58同城/携程等规模

迅速做测试,可以买阿里云虚拟机。


快速实时统计,实时聚类:

spark stream 

storm 

kafka->spark streaming


sqoop 从sql到hadoop数据导入导出;

ELK: 大数据平台log收集

DataX,  可以用于做数据导入导出, 阿里用的插件。


SATA : 报表分析实时要求不高可以用

SAS:   常规配置

SSD:实时分析查询



BI ---> dylin

 报表 ---》 Hive spark sql ; impala , spark sql

流式计算----> spark stream  storm 

消息队列: kafka

数据采集: sqoop , flume 

微信--> hbase , Cassandra , mongodb

搜索: solr, elastic search 

机器学习: spark ML, 



0 0