Spark Streaming整合Flume&Kafka打造通用流处理基础

来源：互联网发布：access软件官方下载编辑：程序博客网时间：2024/06/05 05:49

一、流程图

首先服务器集群中将日志信息通过固定的主机名和端口号，对接到Flume中的Source，然后Flume将chanel中的数据按批次sink到Kafka中，即充当Kafka中的生产者，然后，kafka把生产的数据放入到broker list中，而再将Kafka与Spark Streaming 进行对接，即让Spark Streaming充当消费者，对数据进行处理（对接方式主要有两者，之前的博客里介绍过），最后将处理的结果存储到数据库中，而再用WEB UI将数据库的内容展示出来，形成一个界面分析图。

二、日志的产生

这里，我采用简单的Log4j的方式记录日志，并用开启一个循环的日志生成任务，代码如下：

import org.apache.log4j.Logger;/** * 模拟日志产生 */public class LoggerGenerator {    private static Logger logger = Logger.getLogger(LoggerGenerator.class.getName());    public static void main(String[] args) throws Exception{        int index = 0;        while(true) {            Thread.sleep(1000);            logger.info("value : " + index++);        }    }}

另外，我要注意到的是Log4j的配置文件：

log4j.rootLogger=INFO,stdout,flumelog4j.appender.stdout = org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.target = System.outlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%p] - %m%nlog4j.appender.flume = org.apache.flume.clients.log4jappender.Log4jAppenderlog4j.appender.flume.Hostname = hadoop000log4j.appender.flume.Port = 41414log4j.appender.flume.UnsafeMode = true

需要主要到的是，前面的log4j是对控制台的输出，而后面的配置代码，是将Log4j的日志对接到Flume的source中，Hostname和Port设置为你们Flume的服务器主机和source的端口就可以了。

三、启动Flume接收日志

在Flume的安装目录里，进入conf文件夹，生成一个配置文件，此处我生成的是streaming.conf文件，内容如下：

agent1.sources=avro-sourceagent1.channels=logger-channelagent1.sinks=kafka-sink#define sourceagent1.sources.avro-source.type=avroagent1.sources.avro-source.bind=0.0.0.0agent1.sources.avro-source.port=41414#define channelagent1.channels.logger-channel.type=memory#define sinkagent1.sinks.kafka-sink.type=org.apache.flume.sink.kafka.KafkaSinkagent1.sinks.kafka-sink.topic = streamingtopicagent1.sinks.kafka-sink.brokerList = hadoop000:9092agent1.sinks.kafka-sink.requiredAcks = 1agent1.sinks.kafka-sink.batchSize = 20agent1.sources.avro-source.channels=logger-channelagent1.sinks.kafka-sink.channel=logger-channel

这配置意思就是从log4j里读取数据，然后sink到指定的Kafka里面，这样使得Flume把数据sink到Kafka中，相当于Kafka中的生产者一样。

启动Flume的命令如下：

flume-ng agent \--conf $FLUME_HOME/conf \--conf-file $FLUME_HOME/conf/streaming2.conf \--name agent1 \-Dflume.root.logger=INFO,console

四、启动Kafka

1.首先启动zookeeper

2.启动Kafka server

3.创建kafka的topics

4.启动Kafka的消费者，指定topic和zookeeper，为了调通方便，此处也可以用到控制台的消费，即把生产的数据在直接在控制台上打印出来，更方便联调。

四、启动SparkStreaming对Kafka进行数据的消费

这里的Demo类似于我之前写的SparkStreaming与Kafka的对接，我现在采用的是第一种方式做个简单的演示：

import org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/**  * Spark Streaming对接Kafka  */object KafkaStreamingApp {  def main(args: Array[String]): Unit = {    if(args.length != 4) {      System.err.println("Usage: KafkaStreamingApp <zkQuorum> <group> <topics> <numThreads>")    }    val Array(zkQuorum, group, topics, numThreads) = args    val sparkConf = new SparkConf().setAppName("KafkaReceiverWordCount")      .setMaster("local[2]")    val ssc = new StreamingContext(sparkConf, Seconds(5))    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap    // TODO... Spark Streaming如何对接Kafka    val messages = KafkaUtils.createStream(ssc, zkQuorum, group,topicMap)    // TODO... 自己去测试为什么要取第二个    messages.map(_._2).count().print()    ssc.start()    ssc.awaitTermination()  }}

然后本地调试的话，直接在IDEA里运行就可以，也可以根据我之前写的一样，在Spark上用Spark-submit进行启动任务。

六、总结

我们现在是在本地进行测试的，在IDEA中运行LoggerGenerator，然后使用Flume、Kafka以及Spark Streaming进行处理操作。

在生产上肯定不是这么干的，具体步骤如下：
1) 打包jar，执行LoggerGenerator类
2) Flume、Kafka和我们的测试是一样的
3) Spark Streaming的代码也是需要打成jar包，然后使用spark-submit的方式进行提交到环境上执行
可以根据你们的实际情况选择运行模式：local/yarn/standalone/mesos

在生产上，整个流处理的流程都一样的，区别在于业务逻辑的复杂性。

阅读全文

1 0