Spark+Kafka构建实时分析Dashboard案例
来源:互联网 发布:淘宝品牌销量排名 编辑:程序博客网 时间:2024/06/03 16:57
Spark+Kafka构建实时分析Dashboard案例——步骤一:实验环境准备
《Spark+Kafka构建实时分析Dashboard案例——步骤一:实验环境准备》
开发团队:厦门大学数据库实验室 联系人:林子雨老师 ziyulin@xmu.edu.cn
版权声明:版权归厦门大学数据库实验室所有,请勿用于商业用途;未经授权,其他网站请勿转载
本教程介绍大数据课程实验案例“Spark+Kafka构建实时分析Dashboard案例”的第一个步骤,实验环境准备工作,有些软件的安装在相应的章节还会介绍。
预备知识
Linux系统命令使用、了解如何安装Python库。
训练技能
熟悉Linux基本操作、Pycharm的安装、Spark安装,Kafka安装,PyCharm安装。
任务清单
- Spark安装
- Kafka安装
- Python安装
- Python依赖库
- PyCharm安装
实验系统和软件要求
Ubuntu: 16.04Spark: 2.1.0Scala: 2.11.8kafka: 0.8.2.2Python: 3.x(3.0以上版本)Flask: 0.12.1Flask-SocketIO: 2.8.6kafka-python: 1.3.3
系统和软件的安装
Spark安装
Spark的安装可以参考Spark系列教程,地址为Spark2.1.0入门:Spark的安装和使用;
Kafka安装
kafka的安装可以参考博客Kafka的安装和简单实例测试;
Python安装
Ubuntu16.04系统自带Python2.7和Python3.5,本案例直接使用Ubuntu16.04自带Python3.5;
Python依赖库
本案例主要使用了两个Python库,Flask和Flask-SocketIO,这两个库安装非常简单,如下:
- pip3 install flask
- pip3 install flask-socketio
- pip3 install kafka-python
PyCharm安装
Pycharm是一款Python开发IDE,可以极大方便工程管理以及程序开发。前往PyCharm官网下载免费的Community版本,然后执行如下命令
tar -zxvf ~/下载/pycharm-community-2016.3.2.tar.gzmv ~/下载/pycharm-community-2016.3.2 ~/pycharmcd ~/pycharm./bin/pycharm.sh
执行上述命令之后,即可开启Pycharm。
Python工程目录结构
这里先给出本案例Python工程的目录结构,后续的操作可以根据这个目录进行操作。
- data目录存放的是用户日志数据;
- scripts目录存放的是Kafka生产者和消费者;
- static/js目录存放的是前端所需要的js框架;
- templates目录存放的是html页面;
- app.py为web服务器,接收Spark Streaming处理后的结果,并推送实时数据给浏览器;
- External Libraries是本项目所依赖的Python库,是PyCharm自动生成。
至此,本案例需要的开发环境就介绍完毕,顺带说一句,Spark自带Scala,因此如果是开发Spark应用程序,则没必要单独安装Scala。
下篇文章链接为Spark+Kafka构建实时分析Dashboard案例——步骤二:数据处理和Python操作Kafka
- Spark+Kafka构建实时分析Dashboard案例
- 自己标注(不注意坑不少)-Spark+Kafka构建实时分析Dashboard案例——步骤三:Spark Streaming实时处理数据
- 关键七步,用Apache Spark构建实时分析Dashboard
- 关键七步,用Apache Spark构建实时分析Dashboard
- 使用 Kafka 和 Spark Streaming 构建实时数据处理系统
- 使用 Kafka 和 Spark Streaming 构建实时数据处理系统
- 使用 Kafka 和 Spark Streaming 构建实时数据处理系统
- spark整合kafka案例
- flume + kafka + sparkStreaming + HDFS 构建实时日志分析系统
- flume + kafka + sparkStreaming + HDFS 构建实时日志分析系统
- Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
- Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
- Spark Streaming实时读取Kafka
- Spark kafka实时消费实现
- Spark之SparkStreaming案例-kafka
- Spark 实时计算整合案例
- 使用Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析【公安大数据】
- Kafka+Spark Streaming+Redis实时系统实践
- 倒计时的做法
- Nginx源码分析
- Hbase原理、基本概念、基本架构
- linux下C++编码转换
- Fox And Two Dots
- Spark+Kafka构建实时分析Dashboard案例
- QT-字体文件加载
- 在mac上用node搭建移动设备测试服务器
- 玩命学英语吧兄弟们,请相信我!-七月结
- Untiy 生命周期函数
- UE4 全局数据(可变和不可变)
- 使用外部容器运行spring-boot项目:不使用spring-boot内置容器让spring-boot项目运行在外部tomcat容器中
- 机房收费系统(登录窗体)
- 关于内部类为什么可以有静态常量,不能有静态变量的原因?