第十六篇 深入elasticsearch聚合数据分析
来源:互联网 发布:淘宝网44号女士运动鞋 编辑:程序博客网 时间:2024/06/03 17:34
1. bucket与metric两个核心概念
单词意思就可以理解:
bucket:桶
就是对我们的数据进行分组;
sql中相当于:group by user_id
metric:度量标准
就是对一个数据分组执行的某种聚合分析的操作,比如说求平均值,求最大值,求最小值;
2、家电卖场案例背景
以一个家电卖场中的电视销售数据为背景,来对各种品牌,各种颜色的电视的销量和销售额,进行各种各样角度的分析
//添加一组数据:
PUT /tvs{ "mappings": { "sales": { "properties": { "price": { "type": "long" }, "color": { "type": "keyword" }, "brand": { "type": "keyword" }, "sold_date": { "type": "date" } } } }}POST /tvs/sales/_bulk{ "index": {}}{ "price" : 1000, "color" : "红色", "brand" : "长虹", "sold_date" : "2016-10-28" }{ "index": {}}{ "price" : 2000, "color" : "红色", "brand" : "长虹", "sold_date" : "2016-11-05" }{ "index": {}}{ "price" : 3000, "color" : "绿色", "brand" : "小米", "sold_date" : "2016-05-18" }{ "index": {}}{ "price" : 1500, "color" : "蓝色", "brand" : "TCL", "sold_date" : "2016-07-02" }{ "index": {}}{ "price" : 1200, "color" : "绿色", "brand" : "TCL", "sold_date" : "2016-08-19" }{ "index": {}}{ "price" : 2000, "color" : "红色", "brand" : "长虹", "sold_date" : "2016-11-05" }{ "index": {}}{ "price" : 8000, "color" : "红色", "brand" : "三星", "sold_date" : "2017-01-01" }{ "index": {}}{ "price" : 2500, "color" : "蓝色", "brand" : "小米", "sold_date" : "2017-02-12" }
3、统计哪种颜色的点事销量最高
GET /tvs/sales/_search{ "size" : 0, "aggs" : { "popular_colors" : { "terms" : { "field" : "color" } } }}size:只获取聚合结果,而不要执行聚合的原始数据aggs:固定语法,要对一份数据执行分组聚合操作popular_colors:就是对每个aggs,都要起一个名字,这个名字是随机的,你随便取什么都okterms:根据字段的值进行分组field:根据指定的字段的值进行分组
查询出来的结果:
{ "took": 61, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0 }, "hits": { "total": 8, "max_score": 0, "hits": [] }, "aggregations": { "popular_color": { "doc_count_error_upper_bound": 0, "sum_other_doc_count": 0, "buckets": [ { "key": "红色", "doc_count": 4 }, { "key": "绿色", "doc_count": 2 }, { "key": "蓝色", "doc_count": 2 } ] } }}hits.hits:我们指定了size是0,所以hits.hits就是空的,否则会把执行聚合的那些原始数据给你返回回来aggregations:聚合结果popular_color:我们指定的某个聚合的名称buckets:根据我们指定的field划分出的bucketskey:每个bucket对应的那个值doc_count:这个bucket分组内,有多少个数据数量,其实就是这种颜色的销量每种颜色对应的bucket中的数据的默认的排序规则:按照doc_count降序排序
4、实战bucket+metric:统计每种颜色电视平均价格
GET /tvs/sales/_search{ "size": 0, "aggs": { "colors": { "terms": { "field": "color" }, "aggs": { "avg_price": { "avg": { "field": "price" } } } } }}在一个aggs执行的bucket操作(terms),平级的json结构下,再加一个aggs,这个第二个aggs内部,同样取个名字,执行一个metric操作,avg,对之前的每个bucket中的数据的指定的field:price field,求一个平均值就是一个metric,就是一个对一个bucket分组操作之后,对每个bucket都要执行的一个metric
5、bucket嵌套实现颜色+品牌的多层下钻分析
从颜色到品牌进行下钻分析,每种颜色的平均价格,以及找到每种颜色每个品牌的平均价格(就是分组的情况下在进行分组)
GET /tvs/sales/_search{ "size": 0, "aggs": { "colors": { "terms": { "field": "color" }, "aggs": { "color_avg_price": { "avg": { "field": "price" } }, "group_by_brank":{ "terms": { "field": "brand" }, "aggs": { "brand_avg_price": { "avg": { "field": "price" } } } } } } }}
6、掌握更多metrics:统计每种颜色电视最大最小平均总价格
count:bucket,terms,自动就会有一个doc_count,就相当于是count
avg:avg aggs,求平均值
max:求一个bucket内,指定field值最大的那个数据
min:求一个bucket内,指定field值最小的那个数据
sum:求一个bucket内,指定field值的总和
GET /tvs/sales/_search{ "size" : 0, "aggs": { "colors": { "terms": { "field": "color" }, "aggs": { "avg_price": { "avg": { "field": "price" } }, "min_price" : { "min": { "field": "price"} }, "max_price" : { "max": { "field": "price"} }, "sum_price" : { "sum": { "field": "price" } } } } }}
7、实战histogram按价格区间统计电视销量和销售额
histogram:类似于terms,也是进行bucket分组操作;
区别在于:
它可以接收一个field,按照这个field的值的各个范围区间进行bucket分组操作
bucket划分的方法,terms,将field值相同的数据划分到一个bucket中
GET /tvs/sales/_search{ "size" : 0, "aggs":{ "price":{ "histogram":{ "field": "price", "interval": 2000 }, "aggs":{ "revenue": { "sum": { "field" : "price" } } } } }}interval:2000,划分范围:0~2000,2000~4000,4000~6000,6000~8000,8000~10000,buckets
8、实战date hitogram之统计每月电视销量
date histogram:
按照我们指定的某个date类型的日期field,以及日期interval,按照一定的日期间隔,去划分bucket
min_doc_count:
即使某个日期interval,2017-01-01~2017-01-31中,一条数据都没有,那么这个区间也是要返回的,不然默认是会过滤掉这个区间的
extended_bounds,min,max:
划分bucket的时候,会限定在这个起始日期,和截止日期内
GET /tvs/sales/_search{ "size" : 0, "aggs": { "sales": { "date_histogram": { "field": "sold_date", "interval": "month", "format": "yyyy-MM-dd", "min_doc_count" : 0, "extended_bounds" : { "min" : "2016-01-01", "max" : "2017-12-31" } } } }}
9、下钻分析之统计每季度每个品牌的销售额
GET /tvs/sales/_search { "size": 0, "aggs": { "group_by_sold_date": { "date_histogram": { "field": "sold_date", "interval": "quarter", "format": "yyyy-MM-dd", "min_doc_count": 0, "extended_bounds": { "min": "2016-01-01", "max": "2017-12-31" } }, "aggs": { "group_by_brand": { "terms": { "field": "brand" }, "aggs": { "sum_price": { "sum": { "field": "price" } } } }, "total_sum_price": { "sum": { "field": "price" } } } } }}
10、搜索+聚合:统计指定品牌下每个颜色的销量
GET /tvs/sales/_search { "size": 0, "query": { "term": { "brand": { "value": "小米" } } }, "aggs": { "group_by_color": { "terms": { "field": "color" } } }}
11、global bucket:单个品牌与所有品牌销量对比
aggregation,scope的聚合操作,必须在query的搜索结果范围内执行;有些需求需要对所有的数据执行聚合的。
global:就是global bucket,就是将所有数据纳入聚合的scope,而不管之前的query
GET /tvs/sales/_search { "size": 0, "query": { "term": { "brand": { "value": "长虹" } } }, "aggs": { "single_brand_avg_price": { "avg": { "field": "price" } }, "all": { "global": {}, "aggs": { "all_brand_avg_price": { "avg": { "field": "price" } } } } }}
12、过滤+聚合:统计价格大于1200的电视平均价格
GET /tvs/sales/_search { "size": 0, "query": { "constant_score": { "filter": { "range": { "price": { "gte": 1200 } } } } }, "aggs": { "avg_price": { "avg": { "field": "price" } } }}
13、bucket filter:统计品牌最近一个月的平均价格
GET /tvs/sales/_search { "size": 0, "query": { "term": { "brand": { "value": "长虹" } } }, "aggs": { "recent_30d": { "filter": { "range": { "sold_date": { "gte": "now-30d" } } }, "aggs": { "recent_150d_avg_price": { "avg": { "field": "price" } } } } }}
14、排序:按每种颜色的平均销售额升序排序
GET /tvs/sales/_search { "size": 0, "aggs": { "group_by_color": { "terms": { "field": "color", "order": { "avg_price": "asc" } }, "aggs": { "avg_price": { "avg": { "field": "price" } } } } }}
15、颜色+品牌下钻分析时按最深层metric进行排序
GET /tvs/sales/_search { "size": 0, "aggs": { "group_by_color": { "terms": { "field": "color" }, "aggs": { "group_by_brand": { "terms": { "field": "brand", "order": { "avg_price": "desc" } }, "aggs": { "avg_price": { "avg": { "field": "price" } } } } } } }}
16、易并行聚合算法,近似聚合算法,三角选择原则
易并行聚合算法:
有些聚合算法很容易就可以并行的,比如max:每个shard上可能有一万条数据,然后从这一万条数据提取出max值,将这些shard上取出的值放到coordinate node上再进行筛选最大的max值。
近似聚合算法:
有些算法比如说count(distinc)去重数量,数据就会很多,这时候es会采取近似聚合的方法就是采取每个node上进行近似估计的方式得到最终的结论,会提高性能但是有5%左右的误差。
三角选择原则:
精准+实时+大数据 –> 选择2个
(1)精准+实时: 没有大数据,数据量很小,那么一般就是单机跑,随便你怎么玩儿都可以
(2)精准+大数据:hadoop,批处理,非实时,可以处理海量数据,保证精准,可能会跑几个小时
(3)大数据+实时:es,不精准,近似估计,可能会有百分之几的错误率
17、cardinality去重算法以及每月销售品牌数量统计
es去重:cardinality metric,对每个bucket中的指定的field进行去重,取去重后的count,类似于count(distinct)
GET /tvs/sales/_search{ "size" : 0, "aggs" : { "months" : { "date_histogram": { "field": "sold_date", "interval": "month" }, "aggs": { "distinct_colors" : { "cardinality" : { "field" : "brand" } } } } }}
18、cardinality算法之优化内存开销以及HLL算法
上边提到cardinality相当于count(distinct),有5%的错误率,性能在100ms左右
precision_threshold优化准确率和内存开销
GET /tvs/sales/_search{ "size" : 0, "aggs" : { "distinct_brand" : { "cardinality" : { "field" : "brand", "precision_threshold" : 100 } } }}brand去重,如果brand的unique value,在100个以内,cardinality,几乎保证100%准确cardinality算法,会占用precision_threshold * 8 byte 内存消耗,100 * 8 = 800个字节
19、percentiles百分比算法以及网站访问时延统计
需求:比如有一个网站,记录下了每次请求的访问的耗时,需要统计tp50,tp90,tp99
tp50:50%的请求的耗时最长在多长时间
tp90:90%的请求的耗时最长在多长时间
tp99:99%的请求的耗时最长在多长时间
PUT /website{ "mappings": { "logs": { "properties": { "latency": { "type": "long" }, "province": { "type": "keyword" }, "timestamp": { "type": "date" } } } }}POST /website/logs/_bulk{ "index": {}}{ "latency" : 105, "province" : "江苏", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 83, "province" : "江苏", "timestamp" : "2016-10-29" }{ "index": {}}{ "latency" : 92, "province" : "江苏", "timestamp" : "2016-10-29" }{ "index": {}}{ "latency" : 112, "province" : "江苏", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 68, "province" : "江苏", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 76, "province" : "江苏", "timestamp" : "2016-10-29" }{ "index": {}}{ "latency" : 101, "province" : "新疆", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 275, "province" : "新疆", "timestamp" : "2016-10-29" }{ "index": {}}{ "latency" : 166, "province" : "新疆", "timestamp" : "2016-10-29" }{ "index": {}}{ "latency" : 654, "province" : "新疆", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 389, "province" : "新疆", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 302, "province" : "新疆", "timestamp" : "2016-10-29" }
接下来进行查询:
GET /website/logs/_search { "size": 0, "aggs": { "latency_percentiles": { "percentiles": { "field": "latency", "percents": [ 50, 95, 99 ] } }, "latency_avg": { "avg": { "field": "latency" } } }}
- 第十六篇 深入elasticsearch聚合数据分析
- Elasticsearch分析聚合
- ElasticSearch聚合分析API
- Elasticsearch分析聚合
- Elasticsearch分析聚合
- Elasticsearch(六)elasticsearch聚合分析
- elasticsearch的基础语句介绍 聚合功能很强大 可以分析数据
- elasticsearch聚合--内存控制篇
- Elasticsearch聚合
- Elasticsearch]聚合
- ElasticSearch聚合
- ElasticSearch聚合
- 第三篇 elasticsearch的group by+avg+sort等聚合分析
- 聚合数据股票接口分析
- Elasticsearch聚合初探——metric篇
- elasticsearch学习笔记--聚合函数篇
- elasticsearch源码分析---索引数据
- kafka数据同步Elasticsearch深入详解
- 洛谷 P3932 浮游大陆的68号岛 前缀和
- OpenCV探索之路(二十六):如何去除票据上的印章
- Android Studio Gradle Scripts配置说明
- poj2458 Highways(最小生成树模版)
- 计算N!
- 第十六篇 深入elasticsearch聚合数据分析
- 2017.11.3 測試總結并今日總結
- 显示密码
- Unity Splash Screen
- Spring Boot简介及安装
- Painter's Problem POJ
- TCP协议中的三次握手和四次挥手(图解)
- JAVA笔记-相关软件的配置
- Numpy