大数据相关组件概述
来源:互联网 发布:网络密匙 编辑:程序博客网 时间:2024/05/22 10:36
大数据相关组件概述
1、大数据开发和运维
开发: java、scala hive/spark
运维: shell+CDH平台
开发: java、scala hive/spark
运维: shell+CDH平台
2、大数据组件:
数据抽取收集: SQOOP1/2、Flume
消息中间件: MQ、Kafka
存储: HDFS(分布式文件系统)、HBase(实时列式数据库)、Hive(离线数据库)、Kudu
计算:MapReduce(复杂)-->Hive(SQL|简单) + Spark(CORE、SQL、Streaming)
资源调度+作业调度平台: Yarn
结果:-->Hive,Hbase,MySQL, Redis +接口(代码暴露的服务)
搜索引擎: Elasticsearch
报表可视化: echarts、superset、saiku
调度: kettle、azkaban、rundeck 定时调用job
离线: 数据抽取--》存储--》计算调度--》结果 数据先陆地
日志分析: /txt --> flume--->hdfs/hive-->hive sql(shell)-->hive
数据库: mysql/oracle --> sqoop-->hive
实时: 数据抽取--》计算调度--》结果存储 数据先不陆地
日志分析: /txt-->flume 单个-->kafka cluster-->spark streaming-->redis/hbase
hdfs:分布式文件
hbase:数据库
hive:数据库
3、 数据抽取工具flume
Flume: 数据抽取,将关系型数据-->hdfs/hive/kafka
将log-->定时发送 网址-->服务器的接收处 nginx-->先把日志信息写到磁盘 为xxx.log (ssd)
flume(tail -F xxx.log) -->hdfs
官网:flume.apache.org
三个组件:
source:源端
channel:通道 memory|disk file
sink:目标端
这三个组件是通过一个配置文件配置的。
http://flume.apache.org/FlumeUserGuide.html#a-simple-example
http://blog.itpub.net/30089851/viewspace-2105014/
1.bin包下载
2.配置
a1.sources = s1
a1.channels = c1 承上启下
a1.sinks = k1
a1.sources.s1.channel = c1
a1.sinks.k1.channel = c1
bin/flume-ng agent --conf conf \
--conf-file example.conf \
--name a1 \
-Dflume.root.logger=INFO,console
4、消息中间件Kafka
三个组件:
producer :生产者 flume-->kafka
borker: 数据存储
comsumer:消费者 spark streaming/storm/flink
Flume: 数据抽取,将关系型数据-->hdfs/hive/kafka
将log-->定时发送 网址-->服务器的接收处 nginx-->先把日志信息写到磁盘 为xxx.log (ssd)
flume(tail -F xxx.log) -->hdfs
官网:flume.apache.org
三个组件:
source:源端
channel:通道 memory|disk file
sink:目标端
这三个组件是通过一个配置文件配置的。
http://flume.apache.org/FlumeUserGuide.html#a-simple-example
http://blog.itpub.net/30089851/viewspace-2105014/
1.bin包下载
2.配置
a1.sources = s1
a1.channels = c1 承上启下
a1.sinks = k1
a1.sources.s1.channel = c1
a1.sinks.k1.channel = c1
bin/flume-ng agent --conf conf \
--conf-file example.conf \
--name a1 \
-Dflume.root.logger=INFO,console
4、消息中间件Kafka
三个组件:
producer :生产者 flume-->kafka
borker: 数据存储
comsumer:消费者 spark streaming/storm/flink
1个进程只包含borker组件
5、Flume:
source:源端
channel:通道 memory|disk file
sink:目标端
这三个组件是通过一个配置文件配置的,三个内嵌的组件,1个进程。
阅读全文
0 0
- 大数据相关组件概述
- 大数据算法概述
- 大数据概述
- 大数据算法概述
- 大数据概述1
- 大数据概述
- 大数据概述
- 大数据概述
- 大数据概述1
- 大数据概述
- 大数据-spark概述
- 大数据的概述
- hadoop大数据概述
- 大数据概述
- 大数据组件简介
- 大数据相关
- 大数据相关
- 大数据相关工具
- Ubuntu16安装Mysql和mysql-devel包
- LALLA
- VC_MFC水波纹控件,开源
- 07- BootStrap篇
- Linux Interrupt——魅族内核大神文章
- 大数据相关组件概述
- 什么是SoC?什么是IP核?它们有什么关系?
- 折半查找和顺序查找
- java 编程技巧
- 08-mysql.docx
- 数据结构实验之查找三:树的种类统计
- 利用metasploit通过ms_08_067_netapi漏洞渗透winXp
- Day016
- jQuery中的load