实战SparkStream+Kafka+Redis实时计算商品销售额
来源:互联网 发布:翟欣欣的来历 知乎 编辑:程序博客网 时间:2024/06/05 11:31
写在前面
2016年天猫双十一当天,零点的倒计时话音未落,52秒交易额冲破10亿。随后,又迅速在0时6分28秒,达到100亿!每一秒开猫大屏上的交易额都在刷新,这种时实刷新的大屏看着感觉超爽。天猫这个大屏后面的技术应该是使用流计算,阿里使用Java将Storm重写了,叫JStrom(https://github.com/alibaba/jstorm),最近学习SparkStream和Kafka,可以简单模仿一下这个时实计算成交额的过程,主要目的是实际运用这些技术,也了解一下技术的运用场景,加深对技术的理解。
实时计算模型
下图所示为通用SparkStream时实计算模型,主要分为三部分
数据源
我们这里的数据源选用了Kafka,关于Kafka的安装与使用说明可以参考这里https://kafkadoc.beanmr.com/SparkStream计算
SparkStream是实时计算的核心,这们这里也是近时实计算,选择一个时间窗口,对时间窗口中的数据做离线计算。数据落地
SparkStream算好的结果可以存HDFS/Mysql/Redis等等,我们这里对商品销售额计算过程有涉及累加,所以选择了Redis
业务模型介绍
我们模仿一个电商系统,每时每刻都有订单成交,每一笔成交的数据以一个事件发送到Kafka中,SparkStream每一分中从Kafka中读取一次数据,计算一分钟内每个商品的销售额,然而写入Redis,并在Redis中累加每分钟的数据,Redis中主要存三种结果数量,从开始到当前总销售额、从开始到当前每个商品销售额、上一分钟每个商品的销售额
Kafka生产者,模拟每时每刻订单交易
object OrderProducer { def main(args: Array[String]): Unit = { //Kafka参数设置 val topic = "order" val brokers = "127.0.0.1:9092" val props = new Properties() props.put("metadata.broker.list", brokers) props.put("serializer.class", "kafka.serializer.StringEncoder") val kafkaConfig = new ProducerConfig(props) //创建生产者 val producer = new Producer[String, String](kafkaConfig) while (true) { //随机生成10以内ID val id = Random.nextInt(10) //创建订单成交事件 val event = new JSONObject(); //商品ID event.put("id", id) //商品成交价格 event.put("price", Random.nextInt(10000)) //发送信息 producer.send(new KeyedMessage[String, String](topic, event.toString)) println("Message sent: " + event) //随机暂停一段时间 Thread.sleep(Random.nextInt(100)) } }}
生产者输出结果:
Message sent: {"price":3959,"id":6}Message sent: {"price":1579,"id":0}Message sent: {"price":857,"id":6}Message sent: {"price":8440,"id":1}Message sent: {"price":6873,"id":6}Message sent: {"price":6202,"id":2}Message sent: {"price":8403,"id":6}Message sent: {"price":7866,"id":2}Message sent: {"price":9441,"id":5}Message sent: {"price":6880,"id":4}Message sent: {"price":4572,"id":5}Message sent: {"price":509,"id":3}Message sent: {"price":7526,"id":0}
上述代码主要模拟一家店铺有十件商品,ID从0到9,每隔一小段随机时间成交一单,成交价格以分为单位,每成交一笔就像Kafka中发送一个消息,用这个生产者模拟线上的真实交易,在实际生产中成交数据可以从日志中获取。
Kafka消费者,SparkStream时实计算
object OrderConsumer { //Redis配置 val dbIndex = 0 //每件商品总销售额 val orderTotalKey = "app::order::total" //每件商品上一分钟销售额 val oneMinTotalKey = "app::order::product" //总销售额 val totalKey = "app::order::all" def main(args: Array[String]): Unit = { // 创建 StreamingContext 时间片为1秒 val conf = new SparkConf().setMaster("local").setAppName("UserClickCountStat") val ssc = new StreamingContext(conf, Seconds(1)) // Kafka 配置 val topics = Set("order") val brokers = "127.0.0.1:9092" val kafkaParams = Map[String, String]( "metadata.broker.list" -> brokers, "serializer.class" -> "kafka.serializer.StringEncoder") // 创建一个 direct stream val kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics) //解析JSON val events = kafkaStream.flatMap(line => Some(JSON.parseObject(line._2))) // 按ID分组统计个数与价格总合 val orders = events.map(x => (x.getString("id"), x.getLong("price"))).groupByKey().map(x => (x._1, x._2.size, x._2.reduceLeft(_ + _))) //输出 orders.foreachRDD(x => x.foreachPartition(partition => partition.foreach(x => { println("id=" + x._1 + " count=" + x._2 + " price=" + x._3) //保存到Redis中 val jedis = RedisClient.pool.getResource jedis.select(dbIndex) //每个商品销售额累加 jedis.hincrBy(orderTotalKey, x._1, x._3) //上一分钟第每个商品销售额 jedis.hset(oneMinTotalKey, x._1.toString, x._3.toString) //总销售额累加 jedis.incrBy(totalKey, x._3) RedisClient.pool.returnResource(jedis) }) )) ssc.start() ssc.awaitTermination() }}
消费者每分钟输出
id=4 count=3 price=7208id=8 count=2 price=10152id=7 count=1 price=6928id=5 count=1 price=3327id=6 count=3 price=20483id=0 count=2 price=9882id=2 count=2 price=9191id=3 count=2 price=8211id=1 count=3 price=9906
Redis客户端
object RedisClient extends Serializable { val redisHost = "127.0.0.1" val redisPort = 6379 val redisTimeout = 30000 lazy val pool = new JedisPool(new GenericObjectPoolConfig(), redisHost, redisPort, redisTimeout) lazy val hook = new Thread { override def run = { println("Execute hook thread: " + this) pool.destroy() } } sys.addShutdownHook(hook.run) def main(args: Array[String]): Unit = { val dbIndex = 0 val jedis = RedisClient.pool.getResource jedis.select(dbIndex) jedis.set("test", "1") println(jedis.get("test")) RedisClient.pool.returnResource(jedis) }}
Redis结果
上一分钟商品销售额,有了这个数据就可以做成动态的图表展示时实交易额了
每件商品总销售额
总销售额,这就是天猫大屏上的1111亿了
完整代码地址
http://git.oschina.net/whzhaochao/spark-learning/tree/master/spark/src/main/scala/com/spark/stream/order
原文地址:http://blog.csdn.net/whzhaochao/article/details/77717660
- 实战SparkStream+Kafka+Redis实时计算商品销售额
- SparkStream:5)Spark streaming+kafka整合实战
- sparkstream-kafka
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Kafka+Spark Streaming+Redis实时计算整合实践
- Android Service学习笔记--基础知识
- MyBatis Sql语句中的转义字符
- C++ 之静态成员 初始化必须在定义外
- List排序
- 爬取微博好友所发微博制作词云
- 实战SparkStream+Kafka+Redis实时计算商品销售额
- 用UEditor保存后出现多余空行问题的解决办法
- mysql全量备份、增量备份实现方法
- 上海科达(科远)科技测试工程师面试题
- Linux中用户找不到JAVA_HOME
- java 常用集合list与Set、Map区别及适用场景总结
- 二维数组的初始化(二维数组的赋值)
- SQL笔记:触发器
- Hibernate对象的生命周期及crud操作