myfirstBI项目总结
来源:互联网 发布:范冰冰的生知其图片 编辑:程序博客网 时间:2024/06/05 11:33
app 应用信息统计:
saiku安装:http://blog.csdn.net/longshenlmj/article/details/17359645
workbench解压即用,http://blog.csdn.net/longshenlmj/article/details/17530379
流程:
1,从hive上导入每天的app应用信息,来自各个网站,基本字段根据经验。
2,用kettle清洗设计,导入mysql
3,workbench连接好sql,设计XXX.xml的cube文件。
4,将cube文件通过saiku呈现。相关配置使用的细节,见上面的文件saiku安装。
worbench的纬度:从一个角度(另一个表的某个属性)看事实表中的数据统计信息(事实表ft要有对应的字段)。总结:维度表的column设置项与事实表中对应字段(设置在cube的foreign key)关联
一个纬度表,通过自身的某个键,和事实表的某个键关联。dimension的foreign key和level中column的设定。注意level中的显示列为空,则默认用上面的比较列,设置要显示的列内容,比如显示年份,用date_value进行比较,满足了,在显示同一行上的另一个列的内容。
saiku数据呈现:同一个dim下的level不能分开到row和column上,只能同时在一个上。
dim上是的个数,行列都是dim,事实表中同时满足两个维度条件的元组个数。
measure是统计量,用于统计一列上的个数。比如downloads。统计的是事实表上的一列的值。另一方向放维度就表示,按不同维度值分别进行统计。多个维度,则多个满足条件下的统计。
注意,measure行列都可以放,想横着看,还是竖着看,就放到对应位置就行了。统计过程和统计结果不会发生改变(都是统计事实表中的一列)。measure和dim可以放到一起
另外,在右边的尾部有加图功能,所以按日期看增长量。下图中就是有问题的,出现下降,说明数据有错误。
(再比如,统计每天的下载量,按取值区间统计,观察是否符合正态分布,如果大值处依旧很高,说明作弊的可能性很大)
小测试,时间维度用维度表的dataval(维度表的column设置项),与事实表的date_value(cube的foreign key)关联,可以统计每天的信息。
level的type选regular,其它类型time_XXX还在测试中?
- myfirstBI项目总结
- 项目总结
- 项目总结
- 项目总结
- 项目总结
- 项目总结
- 项目总结!!!
- 项目总结
- ××项目总结
- 项目总结
- 项目总结
- 项目总结
- 项目总结
- 项目总结
- 项目总结
- 项目总结
- 项目总结
- 项目总结
- Android数据库编程快速上手
- c++库函数头文件
- redis学习
- c++程序实体的生存期和作用域
- 【我的博客已经搬至CSDN,请各位继…
- myfirstBI项目总结
- Win7下IIS报503Service Unavailable错误的解决
- 判断一个点是否在指定区域内
- Java开发中的23种设计模式详解【经典】(转)
- Oracle DECODE函数的语法介绍
- 深入浅出 - Android系统移植与平台开发(四)- Android启动流程
- Codeforces Round #222 (Div. 2)
- 字符串操作
- openstack 基础知识——eventlet