Spark Streaming整合Flume&Kafka打造通用流处理基础

来源:互联网 发布:access软件官方下载 编辑:程序博客网 时间:2024/06/05 05:49

一、流程图



首先服务器集群中将日志信息通过固定的主机名和端口号,对接到Flume中的Source,然后Flume将chanel中的数据按批次sink到Kafka中,即充当Kafka中的生产者,然后,kafka把生产的数据放入到broker list中,而再将Kafka与Spark Streaming 进行对接,即让Spark Streaming充当消费者,对数据进行处理(对接方式主要有两者,之前的博客里介绍过),最后将处理的结果存储到数据库中,而再用WEB UI将数据库的内容展示出来,形成一个界面分析图。

二、日志的产生

这里,我采用简单的Log4j的方式记录日志,并用开启一个循环的日志生成任务,代码如下:

import org.apache.log4j.Logger;/** * 模拟日志产生 */public class LoggerGenerator {    private static Logger logger = Logger.getLogger(LoggerGenerator.class.getName());    public static void main(String[] args) throws Exception{        int index = 0;        while(true) {            Thread.sleep(1000);            logger.info("value : " + index++);        }    }}

另外,我要注意到的是Log4j的配置文件:

log4j.rootLogger=INFO,stdout,flumelog4j.appender.stdout = org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.target = System.outlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%p] - %m%nlog4j.appender.flume = org.apache.flume.clients.log4jappender.Log4jAppenderlog4j.appender.flume.Hostname = hadoop000log4j.appender.flume.Port = 41414log4j.appender.flume.UnsafeMode = true
 需要主要到的是,前面的log4j是对控制台的输出,而后面的配置代码,是将Log4j的日志对接到Flume的source中,Hostname和Port设置为你们Flume的服务器主机和source的端口就可以了。

三、启动Flume接收日志

在Flume的安装目录里,进入conf文件夹,生成一个配置文件,此处我生成的是streaming.conf文件,内容如下:

agent1.sources=avro-sourceagent1.channels=logger-channelagent1.sinks=kafka-sink#define sourceagent1.sources.avro-source.type=avroagent1.sources.avro-source.bind=0.0.0.0agent1.sources.avro-source.port=41414#define channelagent1.channels.logger-channel.type=memory#define sinkagent1.sinks.kafka-sink.type=org.apache.flume.sink.kafka.KafkaSinkagent1.sinks.kafka-sink.topic = streamingtopicagent1.sinks.kafka-sink.brokerList = hadoop000:9092agent1.sinks.kafka-sink.requiredAcks = 1agent1.sinks.kafka-sink.batchSize = 20agent1.sources.avro-source.channels=logger-channelagent1.sinks.kafka-sink.channel=logger-channel
这配置意思就是从log4j里读取数据,然后sink到指定的Kafka里面,这样使得Flume把数据sink到Kafka中,相当于Kafka中的生产者一样。

启动Flume的命令如下:

flume-ng agent \--conf $FLUME_HOME/conf \--conf-file $FLUME_HOME/conf/streaming2.conf \--name agent1 \-Dflume.root.logger=INFO,console

四、启动Kafka

1.首先启动zookeeper

2.启动Kafka server

3.创建kafka的topics

4.启动Kafka的消费者,指定topic和zookeeper,为了调通方便,此处也可以用到控制台的消费,即把生产的数据在直接在控制台上打印出来,更方便联调。

四、启动SparkStreaming对Kafka进行数据的消费

这里的Demo类似于我之前写的SparkStreaming与Kafka的对接,我现在采用的是第一种方式做个简单的演示:

import org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/**  * Spark Streaming对接Kafka  */object KafkaStreamingApp {  def main(args: Array[String]): Unit = {    if(args.length != 4) {      System.err.println("Usage: KafkaStreamingApp <zkQuorum> <group> <topics> <numThreads>")    }    val Array(zkQuorum, group, topics, numThreads) = args    val sparkConf = new SparkConf().setAppName("KafkaReceiverWordCount")      .setMaster("local[2]")    val ssc = new StreamingContext(sparkConf, Seconds(5))    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap    // TODO... Spark Streaming如何对接Kafka    val messages = KafkaUtils.createStream(ssc, zkQuorum, group,topicMap)    // TODO... 自己去测试为什么要取第二个    messages.map(_._2).count().print()    ssc.start()    ssc.awaitTermination()  }}
 然后本地调试的话,直接在IDEA里运行就可以,也可以根据我之前写的一样,在Spark上用Spark-submit进行启动任务。

六、总结

我们现在是在本地进行测试的,在IDEA中运行LoggerGenerator,然后使用Flume、Kafka以及Spark Streaming进行处理操作。

在生产上肯定不是这么干的,具体步骤如下:
1) 打包jar,执行LoggerGenerator类
2) Flume、Kafka和我们的测试是一样的
3) Spark Streaming的代码也是需要打成jar包,然后使用spark-submit的方式进行提交到环境上执行
可以根据你们的实际情况选择运行模式:local/yarn/standalone/mesos

在生产上,整个流处理的流程都一样的,区别在于业务逻辑的复杂性。



原创粉丝点击