可搜索的元数据模型

来源：互联网发布：java书籍pdf 编辑：程序博客网时间：2024/04/28 03:33

现有的元数据管理是单独建立一个元数据数据库，这会带来一致性和管理方面的问题。所以我们提出一种新的元数据体系结构——Magellan，能够有效且直接的查询元数据信息。

主要包括以下几方面关键技术：(1)将inode信息记录在磁盘上，以有效的支持元数据的检索。(2)根据数据结构对inode建立索引，允许快速的多属性查询，并支持对所有元数据信息的查询。(3)查询路由技术来尽量减小搜索空间的规模。(4)新型的日志机制来保证高效的更新性能和元数据可靠性。

通过实验结果分析，对百万级文件的查询响应时间保证在毫秒级（一秒内）。

扁平化搜索能够定位特定的元数据，并扩展文件属性。支持基于属性的复杂或组合的查询请求，帮助用户定位、管理和分析数据。

然而现有的元数据模型无法支持扁平化搜索，进而演变出将元数据分离，建立单独的数据库，交给上层应用进行搜索。但是，这种搜索应用程序仅能有效支持台式电脑或者小型服务器，在处理大规模数据时，仍存在一些固有的缺陷和限制。首先，搜索程序必须跟踪文件系统的所有元数据更新操作，这对于十亿级以上的文件规模来说是一个巨大的挑战。其次，元数据的更新必须能够进行快速的重索引（re-index），以防止返回给用户错误的结果。然而，保持元数据索引的实时一致性是非常困难的。最后，搜索程序需要巨额的磁盘、内存和CPU资源。在小型系统中是可行的，但在大型系统中却无法容忍。

所以，可行的方案是直接针对文件系统建立元数据的搜索功能，以提供实时的元数据检索。面临的挑战是：(1)为了满足快速检索的需求，元数据必须是有组织的。(2)这种组织模型必须提供良好的文件系统性能。关系型数据库面对这种需求显得颇为无力。

Magellan采用优化的查询布局，索引和更新机制来保证搜索的性能。所有的元数据查找，都由统一的搜索结构来处理，以避免冗余的数据结构。

0 0