关于元数据的54个问题 (转载)

来源:互联网 发布:windows 打开组策略 编辑:程序博客网 时间:2024/05/08 21:30

关于元数据的54个问题

1. 什么是元数据(metadata)?
元数据是:
• 数据的数据 (data about data)
• 结构化数据 (Structured data about data)
• 用于描述数据的内容(what)、覆盖范围(where, when)、质量、管理方式、数据的所有者(who)、数据的提供方式(how)等信息,是数据与数据用户之间的桥梁;
• 资源的信息 (Information about a resource)
• 编目信息 (Cataloguing information)
• 管理、控制信息(Administrative information)
• 是一组独立的关于资源的说明(metadata is a set of independent assertions about a
resource )
• data that defines and describes other data (ISO/IEC 11179-3:2003(E))
传统的书目数据、产品目录、人事档案等都是元数据。元数据可以为各种形态的信息资源提供规范、普遍的描述方法和检索工具,为分布的、由多种资源组成的信息体系(如数字图书馆)提供整合的工具与纽带。离开元数据的数字图书馆将是一盘散沙,无法提供有效的检索和处理。


2. 元数据与数据是什么关系?
元数据也是数据,其本身也可以作为被描述的对象,这是描述它的数据就是元数据。在信息系统中一般把数据看成是独立的信息单元,不管这里的"数据"是一本书、一个网页、或者一个虚拟的URL 地址。元数据可以出现在:
• 数据内部;
• 独立于数据;
• 伴随着数据;
• 与数据包裹在一起。


3. 元数据(metadata)概念提出的背景是什么?
"书目"作为元数据的一种形式在以图书为资源存在形式的相关行业应用了千百年,其它许多行业也都有自己的元数据格式,例如名册、账本、药典等等。"元数据"作为一个统一概念的提出首先起因于对电子资源管理的需要。因特网的爆炸式的发展,使人们一时难以准确地找到自己所需的信息,人们就试图模仿图书馆对图书进行管理的方式,对网页进行编目。坦白地说在这方面至今仍然成效不大,甚至可以说是失败的。但对元数据的研究和应用使人们看到了新的可能性,元数据可以成为下一代万维网——"语义万维网(Semantic Web)"的基石,通过表达语义的元数据,以及表达结构、关系和逻辑的XML/XMLS/RDF/RDFS/OWL等形式化描述,计算机能够对于数据所负载的语义进行理解和处理,从而赋予因特网以全球
的智慧和惊人的能力。



4. 元数据能解决什么问题?
• 描述(description)
• 资源发现 (resources discovery)
• 认证(authentication)
• 互操作(interoperability)
• 数据管理(data management)
• 访问控制(rights management)
• 数字化保藏(digital preservation)
• 内容分级(content rating services)


5. 元数据是新概念吗?
作为一个概念,古已有之。作为一个词,来自于计算机科学。传统的图书馆卡片、出版图书的版权说明、磁盘的标签等都是元数据的表现形式。


6. 数字图书馆和元数据的关系是什么?
元数据提供数字图书馆的语义基础。数字图书馆的基本逻辑构成是"资源",资源是可以被标识的任何东西,可以是物理的实体,也可以是数字对象或者虚拟的复合对象或对象集合。元数据提供了对资源的各种属性的描述,可以看成是"资源"的替代品。数字图书馆通过管理元数据而管理资源,并提供绝大多数功能。因此元数据通过定义数字图书馆中资源的信息结构,以及定义由数字对象构成的资源库的组织结构,决定着的数字图书馆的信息组织和利用方式,同时元数据还是实现跨资源库语义互操作的基础。

7. 元数据有哪些种类?
对于元数据的种类有不同的分类方法。一般分为描述性元数据、管理型元数据、结构性元数据、保存性元数据等等。
a) 描述性元数据(Intellectual Metadata),用来描述、发现和鉴别数字化信息对象,如MARC、DC,它主要描述信息资源的主题和内容特征。

 

 

b) 结构性元数据(Structural Metadata),描述数字还信息资源的内部结构,如书目的目录、章节、段落的特征。
c) 存取控制性元数据(Access Control Metadata),用来描述数字化信息资源能够被利用的基本条件和期限,以及这些资源的知识产权特征和使用权限。
d) 评价性元数据(Critical Metadata),描述和管理数据在信息评价体系中的位置。
还可以分为管理性、描述性、保存性、技术性和实用性元数据。


8. 什么是描述性元数据?
用于描述一个文献资源的内容及其与其它资源的关系的元数据。总体说来,可以认为元数据都是描述性的,但其中直接描述资源对象固有属性的一些元素,常称为描述性元数据。例如资源的名称、主题、类型等。


9. 什么是保存性元数据?
以保存资源对象为信息系统的开发目的,特别注重资源对象长期保存有关的属性。可以采用OAIS 信息模型选择元素。


10. 什么是管理型元数据?
以管理资源对象为目的的属性元素,通常称为管理型元数据,包括资源对象的显示、注解、使用、长期管理等方面的内容,例如:
?? 所有权权限的管理;
?? 产生/制作时间和方式;
?? 文件类型;
?? 其它技术方面的信息;
?? 使用或获取方面的权限管理等等。

11. 什么是结构性元数据?
用于定义一个复杂的资源对象的物理结构,以利于导航、信息检索和显示。例如描述各个组成部分是怎样组织到一起的元素。


12. 什么是元数据的语义、结构和句法?
属性元素是元数据的语义,Warwick 框架或RDF 等是元数据的结构,可以提供人类和机器双重理解,置标语言(XML)是元数据的语法,用以传达语义和结构。


13. 如何使用元数据?
元数据最基本的功能是通过数据元素集定义资源对象的各类属性,这些属性的大量实例可以表达为关系型数据库中的表,或者以XML 等形式进行置标,从而能够利用数据库系统或各类应用软件进行管理。


14. 什么是元数据的置标?
利用置标语言(例如HTML/XML/RDF/XMLs/RDFs/OWL 等)将元数据方案形式化,提供机器处理的规范表达,就是元数据置标。


15. 元数据可以应用哪些置标语言?
XML/RDF/XMLS/RDFS 以及在SGML 基础上发展起来的任何一种置标体系,例如TEI/EAD/METS/MODS 等都可以作为元数据的置标语言。


16. 什么是XML?
eXtensible Markup Language,即可扩展标记语言,由SGML 简化而来,是许多置标语言(例如XMLs/RDF/RDFs/OWL 等)的元语言。


17. 什么是RDF?
Resource Description Framework,即资源描述框架。采用"资源-属性-属性值"的"主谓宾"结构(或称三元组),提供一种框架容器,并通过XML 定义了一套形式化的方法,为机器语义理解的结构基础。

18. 什么是语义万维网(Semantic Web)?语义万维网与元数据有什么关系?
语义万维网(Semantic Web)是万维网的发明人Tim-Burners Lee 倡导的下一代万维网,旨在赋予万维网上所有资源唯一的标识,并在资源之间建立起机器可处理的各类语义联系。元数据是语义描述的基础,因而也是语义万维网的语义基础。


19. 什么是本体(Ontology)?元数据与本体有什么关系?
本体是领域知识的形式化说明,通常由概念、概念之间的关系、公理、规则组成。元数据解决资源的语义描述问题,本体解决资源集合的相互关系问题,他们都需要一定的形式化机制提供"机器运算"的可能性。元数据与本体的关系可以简单地看成是微观与宏观的关系。


20. 什么是都柏林核心(DC)元数据?
1994 年在NACA 和OCLC 联合会议上由Stuart Weibel、Eric Miller 等提出的,后来由DCMI 负责维护的一种元数据标准。其基本方案是包括15 个"核心元素"的集合。


21. 什么是DC 元数据的1:1(一对一)原则?为什么要有这个原则?
DCMI 的抽象模型要求:一条描述中的每个属性必须是所描述资源的一个特性,一条元数据描述仅描述一个资源。这就是通常所说的"1:1 原则"。

 

 



22. DC 元数据所描述的对象是什么?
DC 元数据所描述的对象是"资源(Resource)",资源是任何可以标识的东西。可以是实体的,也可以是抽象的。常见的例子有电子文档,图像,服务(例如,"洛杉矶今天的天气预报"),还有其他资源的集合。并非所有的资源都是网上可检索的;例如,人,机构,还有图书馆里装订成册的书都可以被认为是资源。
曾经定义为DLO(Document Like Object),由于无法确切定义而放弃。
曾经表述为"数字对象(Digital Object)",由于将物理资源对象排除在外而缺乏普遍意义。
目前的表述作为语义万维网的概念之一,获得支持和承认。

23. DC 元数据的历史沿革情况如何?
1995 年3 月,由OCLC 与国家超级计算应用中心(NCSA)联合发起,52 位来自图书馆界、电脑网络界专家共同研究产生。目的是希望建立一套描述网络电子文献的方法,以便网上信息检索。其中心议题是如何用一个简单的元数据记录来描述种类繁多的电子资源,使非图书馆专业人员都能够了解和使用著录格式,来描述网上资源。因第一届会议在美国OHIO 州的Dublin 召开,提出一个元数据核心集,因此得名。

24. DCMI 是一个怎样的机构?
DCMI 是致力于DC 推广应用和标准化的组织,由自愿加入的个人组成,来自世界各地,具有不同的专业背景。但现在还只是一个虚拟的实体,挂靠(Host)OCLC,不具有任何法律地位。

25. DCMI 目前有哪些推荐"标准"?
属于DCMI 推荐的元数据方案目前主要有三个:DCMES/DCTerms/DCTYPE。另外还有一些置标方案和编码体系属于DCMI 的推荐标准。
参见;
http://dublincore.org/documents/


26. DCMI 如何维护DC 元数据?
DCMI 通过一套运行机制管理维护DC 元数据及其应用。每年的年会是其进行总结、回顾和展望的重要事件,邮件列表是其提出动议、讨论问题和日常运行的主要方式。其运行机制每年都会有一些变化,一些老的做法经过修正,一些新的做法加进来。
DCMI 的基本组成单位是工作组(WG: Working Group),每个工作组在成立时有相应的章程(Charter)规定了工作组的职能和任务,每个工作组有1 至2 名主席,负责组织议题,年会时工作组需要总结前一年度的工作进展,提出新一年的计划。平时通过邮件列表进行讨论。
元数据规范词、文档等经过适当流程后需经过应用委员会(Usage Board)批准才能最终发布。
详见以下文档:
? Guidelines for Dublin Core Working Groups
? Procedure for approval of DCMI Metadata Terms and Recommendations
? DCMI Usage Board (UB) Administrative Processes

27. DCMES(都柏林核心元数据集)包括哪15 个元素?
内容属性                 
题名Title                
主题Subject              
描述Description          
来源Source               
语种Language
关联Relation
覆盖范围Coverage

知识产权属性         
创建者Creator         
出版者Publisher       
其他责任者Contributor 
权限Rights   

形式属性                 
日期Date                               
类型Type         
格式Format      
标识符Identifier

相关文档请参考:
http://dc.library.sh.cn/


28. 什么是限定版(Qualified)DC?包括多少元素?
目前DCQ 已经被全部归到了DCTerms 命名域下,共有33 个限定词(refinements)和17 个编码体系修饰词( encoding scheme qualifier ) 。详见:
http://dublincore.org/documents/dcmi-terms/ 。
( 中文翻译参见:
http://www.dc.library.sh.cn/DC/dcmi-terms.htm


29. 什么是限定?什么是编码体系修饰词?
限定词refinements 也叫修饰词,是对元数据元素语义的进一步限定和细化,通常通过vocabulary 和encoding scheme 两种方式,后者称为编码体系修饰词。

30. 什么是DC 的类型词表?DC 目前认可哪些类型?

 

4楼

DC 对于资源类型建立了一个规范词表, 称为DC 的类型词表。见:
http://dublincore.org/documents/dcmi-type-vocabulary/
目前包括:资源集合Collection, 数据集Dataset, 事件Event, 图像Image, 交互资源InterativeResource, 服务Service, 软件Software, 声音Sound, 文本Text, 物理对象PhysicalObject 共十种,其中图像还有静态图像(StillImage)和动态图像(MovingImage)两个下位类型。类型词的中文翻译见:
http://www.dc.library.sh.cn/DC/dcmi-type-vocabulary.htm

31. 什么是DC 的"资源集合元数据应用纲要"?有哪些内容?
DC 资源集合元数据应用纲要指以资源集合为描述对象的元数据应用纲要,规定了对资源集合进行描述所需采用的元素。目前的状态是工作草案报批稿。参见:
http://www.ukoln.ac.uk/metadata/dcmi/collection-application-profile/ 。中文翻译参见:
http://www.dc.library.sh.cn/DC/collectionMeta.htm


32. 什么是DC 图书馆元数据应用纲要?
DC 图书馆元数据应用纲要指以图书馆应用为适用领域的元数据应用纲要,规定了对图书馆资源进行描述所需采用的元素。目前的状态是工作草案。参见:
http://dublincore.org/documents/library-application-profile/ 。中文翻译参见:
http://www.dc.library.sh.cn/DC/dc_lib.htm


33. 什么是DC 教育元数据应用纲要?
DC 教育元数据应用纲要指以教育应用为适用领域的元数据应用纲要,规定了对教育资源进行描述所需采用的元素。目前的状态是工作草案。参见:
http://dublincore.org/documents/education-namespace/ 。


34. 什么是DC本地化?客户化?如何进行DC的本地化和客户化?
国际化是DCMI 制定和推广元数据标准和应用的一项基本原则。国际化就是要适应各语种、文化的需要,对其元数据方案进行本地化和客户化。本地化是指使一个通用的元数据方案能够适用本地语言、规范词表和其它规范的过程,例如元素名称的翻译和显示、本地分类体系的采用等等;客户化指为适应特定应用领域而进行的限定、扩展等,当然这种限定和扩展要在DC 元数据抽象模型的框架之下进行。本地化和客户化都需要制定相应的规则或进行进一步的规范或约束。


35. 什么是DC 元数据抽象模型?
DCMI 元数据所描述的"资源(resource)"的抽象模型如下:
• 每个资源(resource)具有零个或多个属性(properties);
• 每个属性(property)具有一个或多个值(values);
• 每个值(value) 本身是一个资源(resource)(即:用来描述资源,与属性相关的物理或概念实体。);
• 每个资源(resource)可以是一个或多个类(classes)中的成员;(注:作为属性值的资源所在的类(class)常被称为编码体系词表(vocabulary encoding scheme));
• 每个属性(property)和类(class)均具有其被声明的语义;
• 每个类(class)通过限定(子类)关系与一个或多个其它类相关(当两个类共享部分语义(semantics)时,所有属于子类(sub-class)的资源(resource)同时也是另一个相关类(class)的成员;
• 每个属性只能与一个其它属性通过限定关系(子属性)相关(当两种属性共享部分语义时,子属性的的有效值也就是相关属性的有效值)。
DCMI 元数据描述的抽象模型如下:
• 一个条描述(description)是由一个或多个陈述(statements)(该陈述仅与一个且唯一一个资源有关),以及零个或一个资源的URI 组成(URI 用来标识所描述的资源);
• 每个陈述由一个属性URI(这里的URI 用于标识一个属性),零个或一个值URI(这里的URI 用于标识属性的值),零个或一个编码体系URI(这里的URI 标识值的类),零个或多个值的表述(representations)组成;
• 每个属性都是被描述资源的一项特性;
• 每个属性URI 可以在多个陈述中重复;

 

 

5楼

• 值的表述(value representation)可以是字串值(value string)、复合值(rich value)或相关描述(related description)等形式;
• 每个字串值都是一个简单的、人类可读的字符串,用以表示属性的值;
• 每个字串值可以有相应的编码体系URI( encoding scheme URI),用来标识一个语法编码体系;
• 每个字串值可以有相应的字串语种(value string language),它是一个ISO 语种标记(例如,en-GB);
• 每个复合值(rich value)是一些标记文本、图像、视频、音频等,或者它们的组合,表示作为属性值的资源;每条相关资源描述都是一个用来描述属性值的资源。


36. 为什么需要DC 元数据抽象模型?
原创粉丝点击