Flume系列——Flume介绍及安装

来源:互联网 发布:吊死鬼游戏 c语言 编辑:程序博客网 时间:2024/05/22 01:48

Flume系列——Flume介绍及安装

介绍

Hadoop是离线批量处理海量数据的框架,这些数据已经存放在了HDFS上。但是除非这些数据是其他MapReduce的输出,否则它们不可能一开始就在HDFS上。那么它们是怎么放上去的呢?

当然有很多种途径,如sqoop。不同的数据源可能实用的框架不同。我们在这里要提到的是Flume。官方是这样描述它的:

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

它是一个分布式的、可靠的和可用的服务,能高效收集、聚合和移动大量日志数据。它用可调优的可靠性机制以及故障切换和恢复机制了保证健壮性和容错性。

Flume由很多个Agent组成,它们是一直运行的java进程。Agent由Source、Channel和Sink组成。Source是数据源,它读取数据并发送到Channel中,数据储存在Channel中直到被转发到Sink。Flume读取的数据是以事件流的形式发送的。其结构如下:
这里写图片描述

安装

Flume的安装非常简单。从Flume官网下载安装包。解压到某个目录。

tar -xzf apache-flume-1.7.0-bin.tar.gz

设置好FLUME_HOME和PATH环境变量就可以了。

Flume的安装就这么简单。

0 0
原创粉丝点击