基于akka和data-sketch技术的实时数据流分析服务
来源:互联网 发布:全球使命登陆网络断开 编辑:程序博客网 时间:2024/06/05 06:08
实时数据流分析服务: 实时提交分析数据,实时获取分析结果
之前一直在一家公司做埋点的后台数据处理分析程序,在碰到很多问题后就产生一个想法,能不能直接弄一个数据分析服务,
用户可以随时调用分析服务的接口提交分析数据和获取分析结果(www.xiuyundata.com)
技术背景:
- data-sketch对常见的统计需求,如count(distinct), quantiles, topN等 在精确程度,存储成本,计算成本之间进行了折衷,对每一个计算元素只touch一次的情况下,得到精度相当高的统计结果。
- akka是一个实现了actor pattern的异步编程 library。业务功能都被封闭成actor, 相互之间的调用或状态改变,通过message传递完成,无状态共享.
目前封装了三种计算模型:
- theta sketch:基数计算,即计算count(distinct)
- quantile sketch:分位数计算,即计算一系列数值的分布情况
- frequency sketch:频率计算,即topn计算
数据安全性:
- 提交数据使用wss,获取数据使用https,数据不会被中途截取
- 后台服务不存储任何原始数据,算后即扔,服务端只有分析后的数据
- 相关计算参数,比如userid,business,可以hash或混淆后再传值
- 由于目前只做authenticate,开发者应注意appid的保密性,建议后台调用
目前整个服务后台算是完成了0.5左右吧,由于是试验性质,目前只用了一台阿里云的ES,下一步要做的工作有两方面,
1. 增加统计模型
2. 增加对akka cluster 的支持,使整个后台服务能力可扩展
0 0
- 基于akka和data-sketch技术的实时数据流分析服务
- 数据流基本问题--基于sketch进行Frequency Estimation
- soot数据流 -- 基于soot的过程内数据流分析
- Spark Streaming基于状态、窗口的实时数据流
- 基于soot的过程内数据流分析
- 使用Scala的Akka HTTP,Akka Stream和Reactive Mongo建立REST服务
- 基于POP服务的实时聊天工具
- kafka和zookeeper的日志数据流分析
- 实时数据流式分析改变商业游戏规则
- 基于Heros的过程间数据流分析的相关API
- 基于TMS320VC5509A的实时信号分析仪
- 以物流案例看基于表格存储实时数据流的serverless计算
- 以物流案例看基于表格存储实时数据流的serverless计算
- 实时的神经网络:Faster-RCNN技术分析
- 实时的神经网络:Faster-RCNN技术分析
- Akka在运行时对消息进行实时切换处理的特性: become和unbecome
- 基于OpenGL和LOD技术的海洋场景实时建模仿真
- Akka的Cluster源码分析
- win32强化练习4.9_快速建立ListView
- NOIP2016提高组day2 天天爱跑步
- 软件过程及模型
- 启动tomcat遇到问题解决
- <错误135.'documents'不是一个有效的短文件名>解决方法
- 基于akka和data-sketch技术的实时数据流分析服务
- 熵、交叉熵、相对熵(KL 散度)意义及其关系
- 确定和非确定性算法
- 【jzoj4904】【NOIP2016提高组】【天天爱跑步】【数据结构】
- Oracle出新提案:Java正逼近iOS?
- mongo 写分析
- 安装SQl 2008为SQL Server代理服务提供的凭据无效
- QQ菜单1
- 设计模式之原型模式