读书笔记∣元数据:用数据的数据管理你的世界 Ch.5-8

来源:互联网 发布:sql语句查询多张表 编辑:程序博客网 时间:2024/04/27 16:26

第五章  使用性元数据

1、描述性、管理性等元数据都是有意创建的数据,与之相反,数据废气是做其他事情无意间产生的数据。

2、并行数据

(1)在使用在线资源时,都有可能在无意中产生数据,这种数据往往以网络服务器日志的形式存在,一般来说,用户永远都不会看到网络服务器上运行的软件,而这类软件会搜集关于服务器上所有活动的数据。在这些活动类型中,其中一种用于在服务器上满足文件请求,例如,呈现网页以及嵌入网页的图像或其他媒体,这些存取记录包含大量与提出请求的客户端相关的信息。网络服务器存取记录能让系统管理员追踪服务器的使用与健康状况,但是仅限于描述性数据。为此,越来越多的系统被设计为可以搜集关于用户使用系统的具体数据类型。

(2)在线教学和学习是使这类使用性数据来说,并行数据是一个相对较新的术语,这一术语的大背景是NSDL(国家自然科学数字图书馆)希望通过一种方法来引用用户在NSDL中使用数字学习对象的情况。NSDL将并行数据定义为“关于教育资源的使用性元数据”。NSDL最初是美国国家科学基金的一个项目,现已成为关于高质量在线教育资源的元数据以及相关链接的集合,尤为关注STEM学科,即科学science、技术technology、工程engineering与数学mathematics。NSDL本身并不存放任何教育资源,所有资源都存放在其他组织的网站上,NSDL完全由与教育资源和存放这些资源的组织有关的描述性元数据构成,除这类元数据外,NSDL还搜集使用这类资源的元数据,即这些资源在一段时间内被下载多少次,在Twitter上被提及过多少次,在课程中使用过多少次,修改过多少次以及其他使用指标。在关于并行数据的文档中,NSDL明确指出,并行数据的目的不是替代描述性元数据,而是对其进行补充,NSDL存放的描述性元数据能帮助用户搜索、浏览教育资源,NSDL搜集的并行数据可以为NSDL本身以及其他合作组织反馈如何、为什么以及谁曾使用这些资源。

(3)NSDL并不是唯一一个搜集并行数据的组织,另外,仪表盘也是展示网站和其他在线系统数据的常用工具。

(4)这些使用性元数据,对于网络服务器来说,这种数据被称为日志,在其他资源领域,则被称为分析数据,对于其他服务来说,则往往被称为数据。


第六章  实现元数据的技术

1、结构化数据

(1)页面上的文字拥有结构,即格式,格式是一种结构形式,而这种特定的结构形式能帮助我们识别文字的类型,即使文字本身没有任何意义也可以识别。从深层次上看,语言本身也拥有结构,用自然语言写成的任何一篇文字都具有其内在的结构,这也就是自动化语言翻译工具和文体学得以发挥作用的根本原因。实际上,所有数据都是结构化的,只有完全无序才是非结构化,但结构往往嵌入在非结构化数据中,只要付出一定努力就能找出这样的结构。任何以及所有数据都能以结构化的方式展现,这就是数据库得以存在的原因。数据库能将数据集分解为一个陈述集合并且将其保存为分配给共享字段的值集合。

(2)数据库的陈述与元数据主谓宾陈述拥有类似的结构。关系型数据库可以在一个字段与表格形式的值之间建立起关系,从而控制可以为该字段分配什么值。即某一字段所引用的表格称为受控词汇表,分配到该字段单元格中的值仅可以来自该受控词汇表。

(3)元数据的存在部分上取决于结构化数据的存在,结构化数据根据某种数据模型进行组织,而模式是数据所描述各类实体、属性以及实体之间关系的表现。目前存在很多数据模式,但对于大多数元数据工作来说,最为核心的就是RDF(资源描述框架)

2、RDF 资源描述框架

(1)RDF即资源描述框架,是用于描述资源的框架,是一种数据模型,是组织数据所依赖的一种框架和逻辑结构。框架的目的是描述资源,其中,RDF一般用来描述网络资源,但基本上可以用来描述任何资源,简而言之,RDF是一种对实体做出描述性陈述的通用数据模型。

(2)三段式主谓宾的关系被称为三元组,是RDF的核心部分,RDF的重要特性之一是三元组的主题必须采用URL进行标识。任何资源都可以成为资源,而采用URL识别的任何资源都可以成为三元组的主题,因此,多个RDF三元组可以关联起来并构成图表。

(3)RDF是一种描述资源的框架,是构建大多数元数据模式的依据,存在于元数据模式之中的实体类型和实体之间的关系根据这种框架来予以定义。

3、都柏林核心元数据的抽象模型

(1)存在于都柏林核心元数据模式之中的实体类型和实体之间的关系根据构建在RDF之上的DCMI(都柏林核心元数据项目)抽象模型来予以定义。

(2)尽管都柏林核心元数据模式建立在DCMI抽象模型这种框架之上,模型的目的却在于更加广泛地应用在都柏林核心元数据模式之外的领域之中,DCMI抽象模型实际上旨在成为元数据模式的通用抽象模型,其目的是独立于任何具体语法或语义来对实体和关系进行编码。简而言之,DCMI抽象模型旨在成为一种通用模型,在这种模型之上构建了都柏林核心元数据模式,也可以构建任何元数据模式。

(3)抽象模型的意义:都柏林核心元素集无法满足所有类型的用例,为此,人们创建修饰词来作为扩展都柏林核心元数据元素集的机制,从而允许重新定义元素,建立全新的元素。都柏林核心元数据集作为基础并运用通用抽象模型来轻松进行扩展,从而推动都柏林核心元数据元素集的应用。

(4)DCMI抽象模型采用一种我们比较熟悉的方法来确定元数据模式的本体。被描述资源是RDF三元组的主题,被描述资源由属性-值配对进行描述,属性-值配对由单独一个属性和单独一个值构成。值分为字面值和非字面值。非字面值是一个实体,而字面值是代表该实体的字符串(符号)。被描述资源与非字面值都属于资源。


(5)通用模式可以作为构建任何元数据模式的基础,但其本身也是构建在RDF之上,RDF明确表述了三元组的结构以及网络,DCMI抽象模型对这种结构进行了更深入的探索,但本身也运用了这种结构。

4、可扩展标记语言

DCMI抽象模型作为一种通用模型,并没有具体明确任何特定的语法或语义来定义元数据模式中的实体和关系,而在实践中,许多元数据模式的语法和语义均采用XML编码格式。

(1)HTML:标记语言实际并不是一种语言,而是可以在文档的文本中嵌入指令的受控词汇表,以这样的方式来明确划分文字和指令。大多数情况下,html所传达的指令都跟格式有关,我们的网络浏览器可以解读这些指令。

(2)XML:可扩展标记语言XML不是一种语言,而是一个指令集合,HTML是具体说明如何对网页文档进行格式化的指令集合,而XML则是具体说明其他标记语言的指令集合。

(3)XML、元数据与元数据模式:元数据模式是一种简单、结构化的语言,元数据记录是用该语言做出的陈述集合,而XML是一种结构化语言,可以用来创建其他结构化语言,例如用XML构建的一种HTML语言就是XHTML,HTML5同样构建在XML之上。在现代信息检索系统中,描述记录(元数据)通常以编码的形式存在。供描述记录使用的计算机编码,有许多类型,其中,图书馆、文献单位使用的MARC格式是使用时间最长的编码格式,网络环境下使用较多的是计算机标记语言,多是SGML语言中的HTML以及XML语言等。标记语言本质上是运用标签标注文献的内容、结构和表现形式。现在大部分元数据方案都以XML作为其标记语言。

5、文档类型定义DTD

我们的网络浏览器之所以能解读网页上的HTML代码(例如<b>为什么代表文字加粗),DTD文档则可以生命并定义一种标记语言中存在的所有元素不同版本的HTML拥有不同的DTD文档,但HTML语言编写的元素在各个版本中都较为稳定,这些DTD文档也就十分类似。DTD文档的美妙之处在于可以用来定义任何标记语言的元素,例如下面是DTD声明的都柏林核心元数据元素集:


现在DTD文档已经越来越少见了,原因在于HTML5不再构建于SGML之上,而DTD没有声明HTML5中的元素,相反,DOM(文档对象模型)声明了HTML5元素,其中包括以层级树状结构组织的所有HTML5元素。


第七章 语义网

1、什么是语义网

(1)伯纳斯 李在2001年发表的一篇原创文章中设想了语义网的愿景,称语义网“将为有意义的网络内容赋予结构”,并且软件代理可以运用这种结构来“为用户便捷地实施复杂的任务”。

(2)从某种程度上来说,所有数据都是结构化数据,然而,算法并不能访问所有结构,为了让软件代理可以为用户便捷地实施任务,网络上的数据必须采用显式结构。

2、软件代理

软件代理并不是真正利用网络上“有意义的内容”,因为代理并没有收发数字资源,反而,软件代理收发的是关于这些资源的元数据,换句话说,为了让语义网的愿景成为现实,就要靠软件代理,运用元数据对有意义的网络内容施加架构。

3、关联数据

(1)语义网不仅仅是将结构化数据上传到网上,还需要在结构化数据之间建立联系,实际上,网页之间存在的联系正是让语义网成为网络的原因,同样,结构化在线数据之间的关联支持软件在数据集之间建立联系。

(2)关联数据的基本概念是将万维网的一般架构应用在全球范围内共享结构化数据的任务,尽管网络是一个复杂的信息空间,但是却能从这种错综复杂中总结出一系列非常简单的规则,遵守这些规则能确保新出现的网络技术与现有基础设施实现互操作,确保网络上的结构化数据相互关联。这些规则包括:

       a.将URI用作资源的识别符

       b.根据HTTP来格式化URI,这样就能运用现有技术轻松地发现资源

       c.运用RDF等标准来提供资源以及关于资源的元数据

       d.向其他URI提供连接以及这类元数据,这样就能找到更多的资源。

(3)一切都是相连的

RDF三元组中的谓语在关联数据中发挥关联作用,任何资源都可以作为三元组的主语或宾语,如果资源可以解引用,就能在资源之间建立三元组网络,在这个三元组网络中,关联数据得以关联,由此也就为数据网络赋予了结构,而这也让软件代理得以运用这种结构来实施任务。关联数据是在网络上构建数据的一种方法,从而让数据可以:充分结构化,以供软件使用;运用共享标准来将一个供应商提供的数据和另一个供应商的数据关联起来。

4、现如今,软件代理并没有崛起,网络服务在多数情况下彼此直接交互,通过API(应用程序编程接口)提供并获取结构化数据,这些API提供、获取的是什么元数据取决于应用程序。

一个获取元数据的例子:通过Flicker和Instagram等照片托管服务的API查询满足某些条件的照片,这些照片的Exif记录中包含了GPS数据,地图应用程序的API可以用来导入这种GPS数据,然后在地图上为这些照片定位。

5、艺术关联数据

(1)关于某一资源实际做出的陈述类型往往是有限的,因为独立元数据模式的范围总是特定于某些领域,比如艺术领域。

6、来源于维基百科内容的数据集

7、关联开放数据

相互关联的实体越多,关于实体的记录越多,那么在线展示的知识就越丰富。关联开放数据之所以开放是因为某个组织在网上公布一个数据集,从而得以运用该数据集之中以及该数据集内外实体之间的RDF三元组结构。例如盖蒂研究所已将4中叙词表作为关联开放数据公布,有些来自盖蒂研究所叙词表的URI已经纳入到DBpedia之中,从而将这个极为丰富的网络关联到其他网络中。2010年《纽约时报》开始公布自己的“时报话题”主题标目,其中涵盖了《纽约时报》报道话题中的大约30000个术语,其中一些术语的URI已经被纳入DBpedia中。美国国会图书馆主题标目表、名称规范文档以及其他词汇表以美国国会图书馆关联数据服务的形式予以公布。Facebook也公布了一个元数据模式-OGP(开放内容协议),可让网络上的任何资源“成为社交图谱中的富对象”。例如,只要一段视频或一条新闻文章嵌入到facebook的页面更新中,就能通过OGP导入标题和描述。

8、微数据

(1)schema.org由谷歌、微软和雅虎三家公司强强联合的项目。基于微数据(microdata),也就是在网页中嵌入元数据的规范,实现在网页的任何部分都可以嵌入元数据的设想。

(2)schema.org的运作机制及实践


第八章 元数据的未来

1、图书馆

欧洲数字图书馆和美国数字公共图书馆均收藏了来自文化遗产机构(图书馆、档案馆和博物馆)的资料,并且将这些资料进行了数字化处理以便可以在线访问,这两个项目都不负责存放这些资源,所有数字项目都由相应的文化遗产机构本身存放,欧洲数字图书馆和美国数字公共图书馆发挥门户作用,即提供一定功能,使用户通过搜索、浏览,以及API访问这些材料。而元数据是实现这种功能的关键,欧洲数字图书馆和美国数字公共图书馆均开发了独有的元数据模式,前者为EDM(欧洲数字图书馆数据模型),后者为MAP(美国数字公共图书馆元数据应用规范)。

2、特定领域

音乐:潘多拉,其核心在于音乐基因计划,其中大约450个特性可用于描述一首音乐,这些特性相当于元数据模式中的元素,并且囊括了从相对简单(例如音调、速度、每分钟节拍数、歌手性别等)到极为主观(例如声音特点、乐器失真程度等)的元素,潘多拉聘请了一组音乐家来听自己获得授权的歌曲,然后从这数百个特性中选择相关的特性来描述每首歌曲,特性等同于元素,而潘多拉的音乐家团队负责为这些元素赋值。

教育:IEEE在2002年开发了学习性对象元数据标准来描述“学习性对象”,一般来说指针对某一学习目标可支持教学与学习活动的数字资源。学习性对象元数据标准包括许多类别,每种类别都拥有一个元素集和来表述当前的类别,例如,教育类包含的元素有典型年龄段、典型学习时间等。

3、应用编程接口API

API指一个功能集合,可用于与一个软件(往往为网络服务)进行交互,大多数网络服务(Twitter、YouTube、goodreads、Evernote、dropbox等)都提供API,API往往具有双向性,也就是说不同的功能让用户可以从网络服务中导出或向其导入数据。

4、以数据为基础的分析

(1)eScience:以大量计算和数据为基础的研究方法与分析,其中包括(但不限于)人们通常称为大数据的学科。

(2)用于资源发现的描述性元数据使eScience得以实现,但是溯源元数据则支持了eScience产品的可信性。数据集溯源问题可以从两个层次着手解决,数据集整体以及数据集中的单独值。数据集的溯源元数据可包括各种陈述,例如资助机构、参与数据搜集的研究者姓名、研究所采用的方法等;在数据集中,单独值溯源元数据可能会包括搜集某一具体数据点所采取的方法以及为产生某一特定数据点所进行的任何分析和转换活动。

5、元数据的策略:隐私、法律、政治























阅读全文
0 0
原创粉丝点击