第十六篇深入elasticsearch聚合数据分析

来源：互联网发布：淘宝网44号女士运动鞋编辑：程序博客网时间：2024/06/03 17:34

1. bucket与metric两个核心概念

单词意思就可以理解：
bucket：桶
就是对我们的数据进行分组；
sql中相当于：group by user_id

metric：度量标准
就是对一个数据分组执行的某种聚合分析的操作，比如说求平均值，求最大值，求最小值；

2、家电卖场案例背景

以一个家电卖场中的电视销售数据为背景，来对各种品牌，各种颜色的电视的销量和销售额，进行各种各样角度的分析

//添加一组数据：

PUT /tvs{    "mappings": {        "sales": {            "properties": {                "price": {                    "type": "long"                },                "color": {                    "type": "keyword"                },                "brand": {                    "type": "keyword"                },                "sold_date": {                    "type": "date"                }            }        }    }}POST /tvs/sales/_bulk{ "index": {}}{ "price" : 1000, "color" : "红色", "brand" : "长虹", "sold_date" : "2016-10-28" }{ "index": {}}{ "price" : 2000, "color" : "红色", "brand" : "长虹", "sold_date" : "2016-11-05" }{ "index": {}}{ "price" : 3000, "color" : "绿色", "brand" : "小米", "sold_date" : "2016-05-18" }{ "index": {}}{ "price" : 1500, "color" : "蓝色", "brand" : "TCL", "sold_date" : "2016-07-02" }{ "index": {}}{ "price" : 1200, "color" : "绿色", "brand" : "TCL", "sold_date" : "2016-08-19" }{ "index": {}}{ "price" : 2000, "color" : "红色", "brand" : "长虹", "sold_date" : "2016-11-05" }{ "index": {}}{ "price" : 8000, "color" : "红色", "brand" : "三星", "sold_date" : "2017-01-01" }{ "index": {}}{ "price" : 2500, "color" : "蓝色", "brand" : "小米", "sold_date" : "2017-02-12" }

3、统计哪种颜色的点事销量最高

GET /tvs/sales/_search{    "size" : 0,    "aggs" : {         "popular_colors" : {             "terms" : {               "field" : "color"            }        }    }}size：只获取聚合结果，而不要执行聚合的原始数据aggs：固定语法，要对一份数据执行分组聚合操作popular_colors：就是对每个aggs，都要起一个名字，这个名字是随机的，你随便取什么都okterms：根据字段的值进行分组field：根据指定的字段的值进行分组

查询出来的结果：

{  "took": 61,  "timed_out": false,  "_shards": {    "total": 5,    "successful": 5,    "failed": 0  },  "hits": {    "total": 8,    "max_score": 0,    "hits": []  },  "aggregations": {    "popular_color": {      "doc_count_error_upper_bound": 0,      "sum_other_doc_count": 0,      "buckets": [        {          "key": "红色",          "doc_count": 4        },        {          "key": "绿色",          "doc_count": 2        },        {          "key": "蓝色",          "doc_count": 2        }      ]    }  }}hits.hits：我们指定了size是0，所以hits.hits就是空的，否则会把执行聚合的那些原始数据给你返回回来aggregations：聚合结果popular_color：我们指定的某个聚合的名称buckets：根据我们指定的field划分出的bucketskey：每个bucket对应的那个值doc_count：这个bucket分组内，有多少个数据数量，其实就是这种颜色的销量每种颜色对应的bucket中的数据的默认的排序规则：按照doc_count降序排序

4、实战bucket+metric：统计每种颜色电视平均价格

GET /tvs/sales/_search{  "size": 0,  "aggs": {    "colors": {      "terms": {        "field": "color"      },      "aggs": {        "avg_price": {          "avg": {            "field": "price"          }        }      }    }  }}在一个aggs执行的bucket操作（terms），平级的json结构下，再加一个aggs，这个第二个aggs内部，同样取个名字，执行一个metric操作，avg，对之前的每个bucket中的数据的指定的field:price field，求一个平均值就是一个metric，就是一个对一个bucket分组操作之后，对每个bucket都要执行的一个metric

5、bucket嵌套实现颜色+品牌的多层下钻分析

从颜色到品牌进行下钻分析，每种颜色的平均价格，以及找到每种颜色每个品牌的平均价格（就是分组的情况下在进行分组）

GET /tvs/sales/_search{  "size": 0,  "aggs": {    "colors": {      "terms": {        "field": "color"      },      "aggs": {        "color_avg_price": {          "avg": {            "field": "price"          }        },        "group_by_brank":{          "terms": {            "field": "brand"          },          "aggs": {            "brand_avg_price": {              "avg": {                "field": "price"              }            }          }        }      }    }  }}

6、掌握更多metrics：统计每种颜色电视最大最小平均总价格

count：bucket，terms，自动就会有一个doc_count，就相当于是count
avg：avg aggs，求平均值
max：求一个bucket内，指定field值最大的那个数据
min：求一个bucket内，指定field值最小的那个数据
sum：求一个bucket内，指定field值的总和

GET /tvs/sales/_search{   "size" : 0,   "aggs": {      "colors": {         "terms": {            "field": "color"         },         "aggs": {            "avg_price": { "avg": { "field": "price" } },            "min_price" : { "min": { "field": "price"} },             "max_price" : { "max": { "field": "price"} },            "sum_price" : { "sum": { "field": "price" } }          }      }   }}

7、实战histogram按价格区间统计电视销量和销售额

histogram：类似于terms，也是进行bucket分组操作；
区别在于：
它可以接收一个field，按照这个field的值的各个范围区间进行bucket分组操作
bucket划分的方法，terms，将field值相同的数据划分到一个bucket中

GET /tvs/sales/_search{   "size" : 0,   "aggs":{      "price":{         "histogram":{             "field": "price",            "interval": 2000         },         "aggs":{            "revenue": {               "sum": {                  "field" : "price"               }             }         }      }   }}interval：2000，划分范围：0~2000，2000~4000，4000~6000，6000~8000，8000~10000，buckets

8、实战date hitogram之统计每月电视销量

date histogram：
按照我们指定的某个date类型的日期field，以及日期interval，按照一定的日期间隔，去划分bucket
min_doc_count：
即使某个日期interval，2017-01-01~2017-01-31中，一条数据都没有，那么这个区间也是要返回的，不然默认是会过滤掉这个区间的
extended_bounds，min，max：
划分bucket的时候，会限定在这个起始日期，和截止日期内

GET /tvs/sales/_search{   "size" : 0,   "aggs": {      "sales": {         "date_histogram": {            "field": "sold_date",            "interval": "month",             "format": "yyyy-MM-dd",            "min_doc_count" : 0,             "extended_bounds" : {                 "min" : "2016-01-01",                "max" : "2017-12-31"            }         }      }   }}

9、下钻分析之统计每季度每个品牌的销售额

GET /tvs/sales/_search {  "size": 0,  "aggs": {    "group_by_sold_date": {      "date_histogram": {        "field": "sold_date",        "interval": "quarter",        "format": "yyyy-MM-dd",        "min_doc_count": 0,        "extended_bounds": {          "min": "2016-01-01",          "max": "2017-12-31"        }      },      "aggs": {        "group_by_brand": {          "terms": {            "field": "brand"          },          "aggs": {            "sum_price": {              "sum": {                "field": "price"              }            }          }        },        "total_sum_price": {          "sum": {            "field": "price"          }        }      }    }  }}

10、搜索+聚合：统计指定品牌下每个颜色的销量

GET /tvs/sales/_search {  "size": 0,  "query": {    "term": {      "brand": {        "value": "小米"      }    }  },  "aggs": {    "group_by_color": {      "terms": {        "field": "color"      }    }  }}

11、global bucket：单个品牌与所有品牌销量对比

aggregation，scope的聚合操作，必须在query的搜索结果范围内执行；有些需求需要对所有的数据执行聚合的。
global：就是global bucket，就是将所有数据纳入聚合的scope，而不管之前的query

GET /tvs/sales/_search {  "size": 0,   "query": {    "term": {      "brand": {        "value": "长虹"      }    }  },  "aggs": {    "single_brand_avg_price": {      "avg": {        "field": "price"      }    },    "all": {      "global": {},      "aggs": {        "all_brand_avg_price": {          "avg": {            "field": "price"          }        }      }    }  }}

12、过滤+聚合：统计价格大于1200的电视平均价格

GET /tvs/sales/_search {  "size": 0,  "query": {    "constant_score": {      "filter": {        "range": {          "price": {            "gte": 1200          }        }      }    }  },  "aggs": {    "avg_price": {      "avg": {        "field": "price"      }    }  }}

13、bucket filter：统计品牌最近一个月的平均价格

GET /tvs/sales/_search {  "size": 0,  "query": {    "term": {      "brand": {        "value": "长虹"      }    }  },  "aggs": {    "recent_30d": {      "filter": {        "range": {          "sold_date": {            "gte": "now-30d"          }        }      },      "aggs": {        "recent_150d_avg_price": {          "avg": {            "field": "price"          }        }      }    }  }}

14、排序：按每种颜色的平均销售额升序排序

GET /tvs/sales/_search {  "size": 0,  "aggs": {    "group_by_color": {      "terms": {        "field": "color",        "order": {          "avg_price": "asc"        }      },      "aggs": {        "avg_price": {          "avg": {            "field": "price"          }        }      }    }  }}

15、颜色+品牌下钻分析时按最深层metric进行排序

GET /tvs/sales/_search {  "size": 0,  "aggs": {    "group_by_color": {      "terms": {        "field": "color"      },      "aggs": {        "group_by_brand": {          "terms": {            "field": "brand",            "order": {              "avg_price": "desc"            }          },          "aggs": {            "avg_price": {              "avg": {                "field": "price"              }            }          }        }      }    }  }}

16、易并行聚合算法，近似聚合算法，三角选择原则

易并行聚合算法：
有些聚合算法很容易就可以并行的，比如max：每个shard上可能有一万条数据，然后从这一万条数据提取出max值，将这些shard上取出的值放到coordinate node上再进行筛选最大的max值。
近似聚合算法：
有些算法比如说count（distinc）去重数量，数据就会很多，这时候es会采取近似聚合的方法就是采取每个node上进行近似估计的方式得到最终的结论，会提高性能但是有5%左右的误差。
三角选择原则：
精准+实时+大数据 –> 选择2个

（1）精准+实时: 没有大数据，数据量很小，那么一般就是单机跑，随便你怎么玩儿都可以
（2）精准+大数据：hadoop，批处理，非实时，可以处理海量数据，保证精准，可能会跑几个小时
（3）大数据+实时：es，不精准，近似估计，可能会有百分之几的错误率

17、cardinality去重算法以及每月销售品牌数量统计

es去重：cardinality metric，对每个bucket中的指定的field进行去重，取去重后的count，类似于count(distinct)

GET /tvs/sales/_search{  "size" : 0,  "aggs" : {      "months" : {        "date_histogram": {          "field": "sold_date",          "interval": "month"        },        "aggs": {          "distinct_colors" : {              "cardinality" : {                "field" : "brand"              }          }        }      }  }}

18、cardinality算法之优化内存开销以及HLL算法

上边提到cardinality相当于count(distinct)，有5%的错误率，性能在100ms左右
precision_threshold优化准确率和内存开销

GET /tvs/sales/_search{    "size" : 0,    "aggs" : {        "distinct_brand" : {            "cardinality" : {              "field" : "brand",              "precision_threshold" : 100             }        }    }}brand去重，如果brand的unique value，在100个以内，cardinality，几乎保证100%准确cardinality算法，会占用precision_threshold * 8 byte 内存消耗，100 * 8 = 800个字节

19、percentiles百分比算法以及网站访问时延统计

需求：比如有一个网站，记录下了每次请求的访问的耗时，需要统计tp50，tp90，tp99

tp50：50%的请求的耗时最长在多长时间
tp90：90%的请求的耗时最长在多长时间
tp99：99%的请求的耗时最长在多长时间

PUT /website{    "mappings": {        "logs": {            "properties": {                "latency": {                    "type": "long"                },                "province": {                    "type": "keyword"                },                "timestamp": {                    "type": "date"                }            }        }    }}POST /website/logs/_bulk{ "index": {}}{ "latency" : 105, "province" : "江苏", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 83, "province" : "江苏", "timestamp" : "2016-10-29" }{ "index": {}}{ "latency" : 92, "province" : "江苏", "timestamp" : "2016-10-29" }{ "index": {}}{ "latency" : 112, "province" : "江苏", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 68, "province" : "江苏", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 76, "province" : "江苏", "timestamp" : "2016-10-29" }{ "index": {}}{ "latency" : 101, "province" : "新疆", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 275, "province" : "新疆", "timestamp" : "2016-10-29" }{ "index": {}}{ "latency" : 166, "province" : "新疆", "timestamp" : "2016-10-29" }{ "index": {}}{ "latency" : 654, "province" : "新疆", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 389, "province" : "新疆", "timestamp" : "2016-10-28" }{ "index": {}}{ "latency" : 302, "province" : "新疆", "timestamp" : "2016-10-29" }

接下来进行查询：

GET /website/logs/_search {  "size": 0,  "aggs": {    "latency_percentiles": {      "percentiles": {        "field": "latency",        "percents": [          50,          95,          99        ]      }    },    "latency_avg": {      "avg": {        "field": "latency"      }    }  }}

阅读全文

0 0

第十六篇 深入elasticsearch聚合数据分析