Spark Streaming整合Flume&Kafka打造通用流处理基础
来源:互联网 发布:access软件官方下载 编辑:程序博客网 时间:2024/06/05 05:49
一、流程图
首先服务器集群中将日志信息通过固定的主机名和端口号,对接到Flume中的Source,然后Flume将chanel中的数据按批次sink到Kafka中,即充当Kafka中的生产者,然后,kafka把生产的数据放入到broker list中,而再将Kafka与Spark Streaming 进行对接,即让Spark Streaming充当消费者,对数据进行处理(对接方式主要有两者,之前的博客里介绍过),最后将处理的结果存储到数据库中,而再用WEB UI将数据库的内容展示出来,形成一个界面分析图。
二、日志的产生
这里,我采用简单的Log4j的方式记录日志,并用开启一个循环的日志生成任务,代码如下:
import org.apache.log4j.Logger;/** * 模拟日志产生 */public class LoggerGenerator { private static Logger logger = Logger.getLogger(LoggerGenerator.class.getName()); public static void main(String[] args) throws Exception{ int index = 0; while(true) { Thread.sleep(1000); logger.info("value : " + index++); } }}
另外,我要注意到的是Log4j的配置文件:
log4j.rootLogger=INFO,stdout,flumelog4j.appender.stdout = org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.target = System.outlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%p] - %m%nlog4j.appender.flume = org.apache.flume.clients.log4jappender.Log4jAppenderlog4j.appender.flume.Hostname = hadoop000log4j.appender.flume.Port = 41414log4j.appender.flume.UnsafeMode = true
需要主要到的是,前面的log4j是对控制台的输出,而后面的配置代码,是将Log4j的日志对接到Flume的source中,Hostname和Port设置为你们Flume的服务器主机和source的端口就可以了。三、启动Flume接收日志
在Flume的安装目录里,进入conf文件夹,生成一个配置文件,此处我生成的是streaming.conf文件,内容如下:
agent1.sources=avro-sourceagent1.channels=logger-channelagent1.sinks=kafka-sink#define sourceagent1.sources.avro-source.type=avroagent1.sources.avro-source.bind=0.0.0.0agent1.sources.avro-source.port=41414#define channelagent1.channels.logger-channel.type=memory#define sinkagent1.sinks.kafka-sink.type=org.apache.flume.sink.kafka.KafkaSinkagent1.sinks.kafka-sink.topic = streamingtopicagent1.sinks.kafka-sink.brokerList = hadoop000:9092agent1.sinks.kafka-sink.requiredAcks = 1agent1.sinks.kafka-sink.batchSize = 20agent1.sources.avro-source.channels=logger-channelagent1.sinks.kafka-sink.channel=logger-channel
这配置意思就是从log4j里读取数据,然后sink到指定的Kafka里面,这样使得Flume把数据sink到Kafka中,相当于Kafka中的生产者一样。启动Flume的命令如下:
flume-ng agent \--conf $FLUME_HOME/conf \--conf-file $FLUME_HOME/conf/streaming2.conf \--name agent1 \-Dflume.root.logger=INFO,console
四、启动Kafka
1.首先启动zookeeper
2.启动Kafka server
3.创建kafka的topics
4.启动Kafka的消费者,指定topic和zookeeper,为了调通方便,此处也可以用到控制台的消费,即把生产的数据在直接在控制台上打印出来,更方便联调。
四、启动SparkStreaming对Kafka进行数据的消费
这里的Demo类似于我之前写的SparkStreaming与Kafka的对接,我现在采用的是第一种方式做个简单的演示:
import org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Spark Streaming对接Kafka */object KafkaStreamingApp { def main(args: Array[String]): Unit = { if(args.length != 4) { System.err.println("Usage: KafkaStreamingApp <zkQuorum> <group> <topics> <numThreads>") } val Array(zkQuorum, group, topics, numThreads) = args val sparkConf = new SparkConf().setAppName("KafkaReceiverWordCount") .setMaster("local[2]") val ssc = new StreamingContext(sparkConf, Seconds(5)) val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap // TODO... Spark Streaming如何对接Kafka val messages = KafkaUtils.createStream(ssc, zkQuorum, group,topicMap) // TODO... 自己去测试为什么要取第二个 messages.map(_._2).count().print() ssc.start() ssc.awaitTermination() }}
然后本地调试的话,直接在IDEA里运行就可以,也可以根据我之前写的一样,在Spark上用Spark-submit进行启动任务。六、总结
我们现在是在本地进行测试的,在IDEA中运行LoggerGenerator,然后使用Flume、Kafka以及Spark Streaming进行处理操作。
在生产上肯定不是这么干的,具体步骤如下:
1) 打包jar,执行LoggerGenerator类
2) Flume、Kafka和我们的测试是一样的
3) Spark Streaming的代码也是需要打成jar包,然后使用spark-submit的方式进行提交到环境上执行
可以根据你们的实际情况选择运行模式:local/yarn/standalone/mesos
在生产上,整个流处理的流程都一样的,区别在于业务逻辑的复杂性。
- Spark Streaming整合Flume&Kafka打造通用流处理基础
- flume kafka spark streaming
- Spark Streaming整合Kafka
- spark streaming 整合kafka
- flume-kafka- spark streaming(pyspark)
- flume-kafka- spark streaming(pyspark)
- 基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程
- 基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程
- Flume+Kafka+Spark-Streaming的实时流式处理完整流程
- Flume+Kafka+Spark-Streaming的实时流式处理完整流程
- flume+kafka+spark streaming日志流式处理系统搭建实验
- 整合Kafka到Spark Streaming
- Spark Streaming + Kafka整合指南
- 整合Kafka到Spark Streaming
- Spark Streaming + Kafka整合实例
- Spark-Streaming与Kafka整合
- flume+kafka+spark streaming(持续更新)
- flume+kafka+spark streaming(持续更新)
- Spring Bean的生命周期(非常详细)
- 谈谈对测试驱动开发思想的体会
- 错题
- linux添加防火墙端口
- Can you answer these queries? HDU
- Spark Streaming整合Flume&Kafka打造通用流处理基础
- 每天一道LeetCode-----数组序列,每个元素的值表示最多可以向后跳多远,计算最少跳多少次可以到达末尾
- 【观察】解读京东3C品牌升级背后 零售基础设施输出赋能更多行业
- 1014. 福尔摩斯的约会 (20)
- 【iOS】绘画波浪篇
- 欢迎使用CSDN-markdown编辑器
- eclipse简单配置
- 以root用户运行jenkins中shell命令
- WKWebView 无法触发拨打电话