可搜索的元数据模型

来源:互联网 发布:java书籍pdf 编辑:程序博客网 时间:2024/04/28 03:33

现有的元数据管理是单独建立一个元数据数据库,这会带来一致性和管理方面的问题。所以我们提出一种新的元数据体系结构——Magellan,能够有效且直接的查询元数据信息。


主要包括以下几方面关键技术:(1)将inode信息记录在磁盘上,以有效的支持元数据的检索。(2)根据数据结构对inode建立索引,允许快速的多属性查询,并支持对所有元数据信息的查询。(3)查询路由技术来尽量减小搜索空间的规模。(4)新型的日志机制来保证高效的更新性能和元数据可靠性。


通过实验结果分析,对百万级文件的查询响应时间保证在毫秒级(一秒内)。


扁平化搜索能够定位特定的元数据,并扩展文件属性。支持基于属性的复杂或组合的查询请求,帮助用户定位、管理和分析数据。


然而现有的元数据模型无法支持扁平化搜索,进而演变出将元数据分离,建立单独的数据库,交给上层应用进行搜索。但是,这种搜索应用程序仅能有效支持台式电脑或者小型服务器,在处理大规模数据时,仍存在一些固有的缺陷和限制。首先,搜索程序必须跟踪文件系统的所有元数据更新操作,这对于十亿级以上的文件规模来说是一个巨大的挑战。其次,元数据的更新必须能够进行快速的重索引(re-index),以防止返回给用户错误的结果。然而,保持元数据索引的实时一致性是非常困难的。最后,搜索程序需要巨额的磁盘、内存和CPU资源。在小型系统中是可行的,但在大型系统中却无法容忍。


所以,可行的方案是直接针对文件系统建立元数据的搜索功能,以提供实时的元数据检索。面临的挑战是:(1)为了满足快速检索的需求,元数据必须是有组织的。(2)这种组织模型必须提供良好的文件系统性能。关系型数据库面对这种需求显得颇为无力。


Magellan采用优化的查询布局,索引和更新机制来保证搜索的性能。所有的元数据查找,都由统一的搜索结构来处理,以避免冗余的数据结构。





0 0
原创粉丝点击