Spark+Kafka构建实时分析Dashboard案例

来源：互联网发布：淘宝品牌销量排名编辑：程序博客网时间：2024/06/03 16:57

Spark+Kafka构建实时分析Dashboard案例——步骤一：实验环境准备

罗道文 2017年4月21日 (updated: 2017年5月16日) 1940

《Spark+Kafka构建实时分析Dashboard案例——步骤一：实验环境准备》
开发团队：厦门大学数据库实验室联系人：林子雨老师 ziyulin@xmu.edu.cn

本教程介绍大数据课程实验案例“Spark+Kafka构建实时分析Dashboard案例”的第一个步骤，实验环境准备工作，有些软件的安装在相应的章节还会介绍。

Linux系统命令使用、了解如何安装Python库。

熟悉Linux基本操作、Pycharm的安装、Spark安装，Kafka安装，PyCharm安装。

Ubuntu: 16.04Spark: 2.1.0Scala: 2.11.8kafka: 0.8.2.2Python: 3.x(3.0以上版本)Flask: 0.12.1Flask-SocketIO: 2.8.6kafka-python： 1.3.3

Spark的安装可以参考Spark系列教程，地址为Spark2.1.0入门：Spark的安装和使用；

kafka的安装可以参考博客Kafka的安装和简单实例测试；

Ubuntu16.04系统自带Python2.7和Python3.5，本案例直接使用Ubuntu16.04自带Python3.5；

本案例主要使用了两个Python库，Flask和Flask-SocketIO，这两个库安装非常简单，如下：

pip3 install flask
pip3 install flask-socketio
pip3 install kafka-python

Pycharm是一款Python开发IDE，可以极大方便工程管理以及程序开发。前往PyCharm官网下载免费的Community版本，然后执行如下命令

tar -zxvf ~/下载/pycharm-community-2016.3.2.tar.gzmv ~/下载/pycharm-community-2016.3.2 ~/pycharmcd ~/pycharm./bin/pycharm.sh

执行上述命令之后，即可开启Pycharm。

这里先给出本案例Python工程的目录结构，后续的操作可以根据这个目录进行操作。

Python工程目录结构

至此，本案例需要的开发环境就介绍完毕，顺带说一句，Spark自带Scala，因此如果是开发Spark应用程序，则没必要单独安装Scala。

下篇文章链接为Spark+Kafka构建实时分析Dashboard案例——步骤二：数据处理和Python操作Kafka

阅读全文

0 0