SciDB特征简介

来源:互联网 发布:淘宝招商骗局 编辑:程序博客网 时间:2024/06/06 08:51

        SciDB是一个开源的数据管理系统,主要为科学领域中的超大大规模阵列数据而设计。与传统的DBMS不同,它是一个数据管理和分析软件系统(DMAS Data Management and Analytics Software System)。

1、数据模型

SciDB采用阵列数据模型,支持多维数据。其基本组成单元是cell,各个cell有相同的值类型。cell的值可以是一个多多个标量值,也可以是一个或多个数组。

2、主要特征

无覆盖(No Overwrite):SciDB使用无覆盖存储管理,阵列可以选择声明是否可以更新。历史数据采用压缩算法以节省空间。

面向网格(Grid Orientation):适合部署在无共享的云环境或网格中。

原位数据(”In Situ“ Data):为减轻数据库加载大规模数据的负担,SciDB定义自己的数据格式,并为常用的外部数格式写适配器。只要有用户数据对应的适配器存在,就可以不通过加载数据直接使用SciDB。

集成处理过程(Integration of the Cooking Process):SciDB加载原始数据,使用自定义函数(UDFs)和数据操作处理。

命名版本(Named Versions):用户对阵列的一部分执行特定的变更,而保留其余部分不变。

数据起源(Provenance):可以满足数据推导可重复性的要求。搜索策略如下:对一个给定的元素,寻找创建其的所有处理步骤和由其产生的所有数据。
创建溯源查询语句并有效执行是难点。

不确定性(uncertainty):科学领域的数据一般都是不精确的,SciDB支持数据及其误差。

开源(Open Source)


参考资料:Cudre-Mauroux, P., et al.: A Demonstration of SciDB: a Science-oriented DBMS. VLDB 2(2), 1534–1537 (2009)