延云YDB基础

来源:互联网 发布:改号软件免费版 编辑:程序博客网 时间:2024/05/16 02:16

第二章 YDB基础

一、YDB是什么?

      YDB全称延云YDB,是一个基于Hadoop分布式架构下的实时的、多维的、交互式的查询、统计、分析引擎,具有万亿数据规模下的秒级性能表现,并具备企业级的稳定可靠表现。

      YDB是一个细粒度的索引,精确粒度的索引。数据即时导入,索引即时生成,通过索引高效定位到相关数据。YDB与Spark深度集成,Spark对YDB检索结果集直接分析计算,同样场景让Spark性能加快百倍。



二、为探索性分析与即席分析而设计

YDB的即席分析(Ad Hoc)概念的解释

1:当场,就是当场去查询,现场 随意、即兴 查询。

2:响应时间要求为几秒才能称为即席。

即席分析与普通分析的区别

1.普通的应用分析是定制开发的,大多是预先计算好的。

2.即席分析是用户在使用时临时生产的分析,查询条件事先未知,系统无法预先优化这些查询,在现场没法预先准备,所以即席查询的性能也是评估数据仓库的一个重要指标。

三、YDB适合的行业


四、企业级特性:稳定,可靠,易用

 

五、哪些用户适合使用YDB?

1.传统关系型数据,已经无法容纳更多的数据,查询效率严重受到影响的用户。

2.目前在使用SOLR、ES做全文检索,觉得solr与ES提供的分析功能太少,无法完成复杂的业务逻辑,或者数据量变多后SOLR与ES变得不稳定,在掉片与均衡中不断恶性循环,不能自动恢复服务,运维人员需经常半夜起来重启集群的情况。

3.基于对海量数据的分析,但是苦于现有的离线计算平台的速度和响应时间无满足业务要求的用户。

4.需要对用户画像行为类数据做多维定向分析的用户。

5.需要对大量的UGC(User Generate Content)数据进行检索的用户。

6.当你需要在大数据集上面进行快速的,交互式的查询时。

7.当你需要进行数据分析,而不只是简单的键值对存储时。

8.当你想要分析实时产生的数据时。

六、什么情况下不需要用YDB?

1.当数据量可以在MySQL中很轻松的处理时

2.当批量数据集成对你来说已经足够好的情况下

3.当你只需要执行固定的查询时


 

七、在公安系统的-典型的场景




 

 

八、现有大数据技术痛点分析


 

九、主要功能概述

功能

概述

检索过滤

等值匹配,支持 in操作,>,<,>=,<=

and与or的嵌套组合

统计分析

单/多列group by,max,min,sum,avg,count,distinct

复杂SQL

自定义udf,udaf,udtf,SQL多层嵌套,union,join

模糊查询

全文检索,临近搜索,相似文本(文章)搜索, like。

数据类型

string,int,long,float,double

支持一列多值适合一条记录多个标签的存储与检索

中文分词

内嵌二元分词,号码分词,IK词库分词,以及YDB的多元分词。

也可自定义或拓展第三方分词。

十、卓越的性能

1.稽查布控场景性能

 

2.卓越的检索与分析性能

与Spark txt性能对比(提升倍数)


与ORACLE性能对比

 

 

3.卓越的排序性能

      按照时间逆序排序可以说是很多日志系统的硬指标。在延云YDB系统中,我们改变了传统的暴力排序方式,通过索引技术,可以超快对数据进行单列排序,不需要全表暴力扫描,这个技术我们称之为BlockSort,目前支持tlong、tdouble、tint、tfloat四种数据类型。

      由于BlockSort是借助搜索的索引来实现的,所以采用BlockSort的排序,不需要暴力扫描,性能有大幅度的提升。

      BlockSort的排序,并非是预计算的方式,可以进行全表进行排序,也可以基于任意的过滤筛选条件进行过滤排序。

      详细测试地址:http://blog.csdn.NET/qq_33160722/article/details/54447022

      300亿条数据的排序 演示视频 http://blog.csdn.Net/qq_33160722/article/details/54834896

 

测试结果(时间单位为秒)

amtint列筛选

筛选后条数

排序方式

YDBBlockSort

Spark

无筛选

100亿

降序

3.3

1118

升序

3.6

1085

100 TO 900

80亿

降序

1.5

1093

升序

1.3

1070

100 TO 600

50亿

降序

1.53

1104

升序

1.38

867

100 TO 200

10亿

降序

7.00

1115

升序

1.11

1131

100 TO 110

1亿

降序

2.1

1160

升序

3.44

1114

100 TO 101

0.1亿

降序

10.67

1089

升序

7.0

1110

0 0
原创粉丝点击