离线数据分析流程介绍
来源:互联网 发布:大数据迁移方案 编辑:程序博客网 时间:2024/06/08 16:31
注:本环节主要感受数据分析系统的宏观概念及处理流程,初步理解hadoop等框架在其中的应用环节,不用过于关注代码细节
一个应用广泛的数据分析系统:“web日志数据挖掘”
3.1 需求分析
3.1.1 案例名称
“网站或APP点击流日志数据挖掘系统”。
3.1.2 案例需求描述
“Web点击流日志”包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值,广告转化率、访客的来源信息,访客的终端信息等。
3.1.3 数据来源
本案例的数据主要由用户的点击行为记录
获取方式:在页面预埋一段js程序,为页面上想要监听的标签绑定事件,只要用户点击或移动到标签,即可触发ajax请求到后台servlet程序,用log4j记录下事件信息,从而在web服务器(nginx、tomcat等)上形成不断增长的日志文件。
形如:
58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
3.2 数据处理流程
3.2.1 流程图解析
本案例跟典型的BI系统极其类似,整体流程如下:
但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同,后续课程都会一一讲解:
1) 数据采集:定制开发采集程序,或使用开源框架FLUME
2) 数据预处理:定制开发mapreduce程序运行于hadoop集群
3) 数据仓库技术:基于hadoop之上的Hive
4) 数据导出:基于hadoop的sqoop数据导入导出工具
5) 数据可视化:定制开发web程序或使用kettle等产品
6) 整个过程的流程调度:hadoop生态圈中的oozie工具或其他类似开源产品
3.2.2 项目技术架构图
3.2.3 项目相关截图(感性认识,欣赏即可)
a) Mapreudce程序运行
b) 在Hive中查询数据
c) 将统计结果导入mysql
./sqoop export --connect jdbc:mysql://localhost:3306/weblogdb --username root --password root --table t_display_xx --export-dir /user/hive/warehouse/uv/dt=2014-08-03
3.3 项目最终效果
经过完整的数据处理流程后,会周期性输出各类统计指标的报表,在生产实践中,最终需要将这些报表数据以可视化的形式展现出来,本案例采用web程序来实现数据可视化
效果如下所示:
- 离线数据分析流程介绍
- 离线数据分析流程介绍
- 离线数据分析流程介绍
- 大数据分析的两个流程(实时与离线):
- 大数据分析流程
- 数据分析流程
- 移动数据 流程分析
- 数据分析项目流程
- 数据分析流程
- 1. 数据分析流程
- SPSS数据分析流程
- html5离线应用流程介绍 (含 apache2下部署的配置离线应用搭建实例)
- ArcGIS for Android 离线数据空间分析--叠加分析
- android Camera 数据流程分析
- 【完整的数据分析流程】
- android Camera 数据流程分析
- android Camera 数据流程分析
- 数据处理之数据流程分析
- Linux下安装MongoDB
- PHP 设置调试工具XDebug PHPStorm IDE
- WebPack 简单使用
- HADOOP背景介绍
- 分布式系统概述
- 离线数据分析流程介绍
- 集群搭建
- 集群使用初步
- hadoop 3.0.0 alpha3 安装、配置
- vim常用快捷键
- Git 命令 操作
- 操作Hadoop集群
- HDFS详解
- Java xml 操作(Dom4J修改xml   + xPath技术  + SAX解析 + XML约束)