元数据专题

来源:互联网 发布:大当家网络 编辑:程序博客网 时间:2024/05/23 02:00

一、为什么需要元数据?

说到元数据的意义,可以从它的应用目的来谈。元数据作为数据的数据,主要应用目的,有以下几点:

1、确认和检索(Discovery identification),主要致力于如何帮助人们检索和确认需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。

2、著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式等等,MARC和FGDC/CSDGM是这类的典型代表。

3、资源管理(Resource Administration),支持资源的存储和使用管理,数据袁术除了包括比较全面的著录描述信息外,还往往包括权利管理、电子签名、资源评鉴、使用管理、支付审计等方面的信息。

4、资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式、保存责任等内容。

在网络资源描述方面,Dublin Core 经过多年国际性努力,已经成为了一个广为接受和应用的事实标准。


二、元数据管理系统架构的发展

传统文件系统,元数据和文件数据保存在一个计算机上,并有同一个文件系统管理,能高效管理GB规模的文件。

而随着数据规模的不断激增,单一节点的存储能力已经不能满足需求,分布式存储和分布式文件系统随之产生。在这种架构下,元数据由单独的MDS(Meta Data Server)服务器管理,文件数据由另外的存储器存储,两种数据之间通过网络交互,使得用户能独立访问两种服务器。

但是,在实际应用过程中,大规模并发访问会导致MDS集群的负载不均衡,为了提高系统系统和可扩展性,元数据的迁移不可避免。又由于元数据是保存在MDS的硬盘上,迁移会造成大量的硬盘I/O,严重影响服务质量。因此,提出一种新的元数据管理系统构,即元数据的处理和元数据的存储相分离,其中MDS用来与客户端交互,处理用户对元数据的各种请求。而元数据的存储就由面向对象的存储设备来负责。这样就将数据迁移控制在缓存数据移动,不涉及硬盘I/O,极大的提高了系统性能。


三、元数据管理技术

元数据的管理策略主要分为两大类:子树分割(Subtree Partitioning)和哈希(Hashing)。

子树分割

子树分割策略把分布式文件系统的全局命名空间和目录层次按照一定策略分割成多个子树,每个子树分布到一个特定的MDS中。

静态子树分割只有在修改系统配置后,子树才会在MDS中重新分布。实现简单,充分利用存储局部性,但是权限验证耗时长,不能动态负载。

动态子树分割策略将命名空间的不同子树委托授权给不同的MDS,方法灵活,分割粒度也相应较小,可以通过子树迁移来实现动态负载均衡。

哈希

哈希策略则利用文件或目录的某个特征值来计算hash值,并根据这些hash值将对应的文件或目录分布到MDS中。

静态哈系策略分布粒度更小,负载分布更均衡,且并发度更高。但是缺点也很明显:元数据的均匀分布使得系统的一致性很难维护,目录重命名或者MDS集群的变动会导致规模庞大的元数据迁移。

LH(Lazy Hybrid)策略,它保留了目录层次结构,以便于提供文件系统语义,同时采用文件的全路径名称进行hash计算,从而把文件分布到不同的MDS中。它在保留子树分割和静态哈希的优点的同时,也不可避免的包含了二者的缺点。


四、元数据的检索技术

扁平化搜索能够定位到特定的元数据,并扩展文件属性。支持基于属性的复杂或组合查询请求,能够帮助用户定位、管理和分析数据。

然而,现有的元数据模型无法支持扁平化搜索,进而演变出将元数据分离,建立单独的数据库,交给上层应用进行搜索。但是,这种应用搜索程序仅能有效的台式电脑或者小型服务器,在处理大规模数据时,仍存在一些固有的缺陷和限制。

首先,搜索程序必须跟踪文件系统的所有元数据更新操作,这对于十亿级以上的文件规模来说是一个巨大的挑战。

其次,元数据的更新必须能够进行快速的重索引(re-index),以防止返回给用户错误的结构。然后,保持元数据索引的实时一致性是非常困难的。

最后,搜索程序需要巨额的磁盘、内存和CPU资源。这在小型系统中是可行的,但在大型系统中是无法容忍的。

所以,可行的方案是直接针对文件系统建立元数据的搜索功能,以提供实时的元数据检索。面临的挑战是:(1)为了满足快速检索的需求,元数据必须是有组织的。(2)这种组织模型必须提供良好的文件系统性能。关系型数据库面对这种需求显得颇为无力。而key-value存储则显示出了优越的性能。

我们通过采用倒排索引,扁平化搜索,key-value存储等技术能够有效的支持基于文件属性的多维度索引技术和并行搜索技术。极大的丰富与提高了元数据检索的功能和性能。





0 0
原创粉丝点击