大数据相关组件概述

来源：互联网发布：网络密匙编辑：程序博客网时间：2024/05/22 10:36

大数据相关组件概述

1、大数据开发和运维
开发: java、scala hive/spark
运维: shell+CDH平台

2、大数据组件:
数据抽取收集: SQOOP1/2、Flume
消息中间件: MQ、Kafka
存储: HDFS(分布式文件系统)、HBase(实时列式数据库)、Hive(离线数据库)、Kudu
计算：MapReduce(复杂)-->Hive(SQL|简单) + Spark(CORE、SQL、Streaming)
资源调度+作业调度平台: Yarn

结果:-->Hive，Hbase，MySQL, Redis +接口(代码暴露的服务)
搜索引擎: Elasticsearch
报表可视化: echarts、superset、saiku
调度: kettle、azkaban、rundeck 定时调用job

离线: 数据抽取--》存储--》计算调度--》结果数据先陆地
日志分析: /txt --> flume--->hdfs/hive-->hive sql(shell)-->hive
数据库: mysql/oracle --> sqoop-->hive

实时: 数据抽取--》计算调度--》结果存储数据先不陆地
日志分析: /txt-->flume 单个-->kafka cluster-->spark streaming-->redis/hbase

hdfs：分布式文件
hbase：数据库
hive：数据库

3、数据抽取工具flume
Flume: 数据抽取，将关系型数据-->hdfs/hive/kafka
将log-->定时发送网址-->服务器的接收处 nginx-->先把日志信息写到磁盘为xxx.log (ssd)
flume(tail -F xxx.log) -->hdfs
官网：flume.apache.org

三个组件：
source:源端
channel:通道 memory|disk file
sink:目标端
这三个组件是通过一个配置文件配置的。

http://flume.apache.org/FlumeUserGuide.html#a-simple-example
http://blog.itpub.net/30089851/viewspace-2105014/
1.bin包下载
2.配置
a1.sources = s1
a1.channels = c1 承上启下
a1.sinks = k1

a1.sources.s1.channel = c1
a1.sinks.k1.channel = c1

bin/flume-ng agent --conf conf \
--conf-file example.conf \
--name a1 \
-Dflume.root.logger=INFO,console

4、消息中间件Kafka
三个组件：
producer :生产者 flume-->kafka
borker：数据存储
comsumer：消费者 spark streaming/storm/flink

1个进程只包含borker组件

5、Flume：
source:源端
channel:通道 memory|disk file
sink:目标端
这三个组件是通过一个配置文件配置的，三个内嵌的组件，1个进程。

阅读全文

0 0