大数据相关组件概述

来源:互联网 发布:网络密匙 编辑:程序博客网 时间:2024/05/22 10:36
大数据相关组件概述
1、大数据开发和运维
      开发: java、scala   hive/spark
      运维: shell+CDH平台

2、大数据组件:
        数据抽取收集: SQOOP1/2、Flume
        消息中间件: MQ、Kafka
        存储: HDFS(分布式文件系统)、HBase(实时列式数据库)、Hive(离线数据库)、Kudu
        计算:MapReduce(复杂)-->Hive(SQL|简单) + Spark(CORE、SQL、Streaming)
        资源调度+作业调度平台: Yarn

   结果:-->Hive,Hbase,MySQL, Redis +接口(代码暴露的服务)
   搜索引擎: Elasticsearch
   报表可视化: echarts、superset、saiku
   调度: kettle、azkaban、rundeck 定时调用job

离线: 数据抽取--》存储--》计算调度--》结果   数据先陆地
        日志分析:  /txt --> flume--->hdfs/hive-->hive sql(shell)-->hive
        数据库:    mysql/oracle --> sqoop-->hive

实时: 数据抽取--》计算调度--》结果存储     数据先不陆地
        日志分析:  /txt-->flume 单个-->kafka cluster-->spark streaming-->redis/hbase

    hdfs:分布式文件
    hbase:数据库
    hive:数据库
 
3、 数据抽取工具flume  
       Flume: 数据抽取,将关系型数据-->hdfs/hive/kafka
       将log-->定时发送 网址-->服务器的接收处 nginx-->先把日志信息写到磁盘 为xxx.log (ssd)
       flume(tail -F xxx.log) -->hdfs
       官网:flume.apache.org

     三个组件:
       source:源端
       channel:通道  memory|disk file
       sink:目标端
       这三个组件是通过一个配置文件配置的。

http://flume.apache.org/FlumeUserGuide.html#a-simple-example
http://blog.itpub.net/30089851/viewspace-2105014/
1.bin包下载
2.配置
a1.sources = s1
a1.channels = c1   承上启下
a1.sinks = k1

a1.sources.s1.channel = c1
a1.sinks.k1.channel = c1

bin/flume-ng agent --conf conf \
--conf-file example.conf \
--name a1 \
-Dflume.root.logger=INFO,console

4、消息中间件Kafka
      三个组件:
      producer :生产者  flume-->kafka
      borker: 数据存储
      comsumer:消费者  spark streaming/storm/flink

      1个进程只包含borker组件

5、Flume:
      source:源端
      channel:通道  memory|disk file
      sink:目标端
      这三个组件是通过一个配置文件配置的,三个内嵌的组件,1个进程。
原创粉丝点击