元数据的理解

来源:互联网 发布:淘宝旺旺如何设置 编辑:程序博客网 时间:2024/04/19 12:43

一、理论定义

通常,元数据被定义为“关于数据的数据”,但是该定义并不确切,因而会导致歧义和混乱。实际上,元数据是一种信息和文献,它使得数据在经历了时间的推移后,对于用户来说,依然具有可理解性和共享性。它使得在元数据可获得的情况上,数据依然是有用的、可共享以及可理解的。

所有产生数据的组织都有义务提供(生成)必要的元数据,使得数据对于它的内部和外部用户都是可理解的。仅仅使用户可以获得数据,而缺乏理解和解释数据必要的信息显然是不够的。

每一个提供数据的组织还有一个义务就是对元数据的成分及构成,给出确切的定义。其原因包括三个方面:

a) 在一定的相关环境中,必须对数据和元数据给出明确的界定;

b) 元数据的整个范围必须被确定,即:充分、全面地描述数据所必需的所有元数据;

c) 由于每一个组织对元数据的需求和应用都相差甚远,因而无法对元数据给出一个普遍可以接受的定义。

       因为元数据也是数据,因此也可以像对数据库中其它类型的数据一样,在其储存库中,对元数据进行存储和检索。有序地存储和应用元数据,就可能使数据得到迅速、有效的使用。通过联机数据传播、发送,数据及其元数据就可以同时获得。这样,数据用户就可以通过元数据来了解其需要用的数据的信息。

    由于各种组织提供了不同类型的数据,因此,对元数据也有不同的需要和要求。但是,元数据宽泛的分类模式使之在不同组织间具有更多的共性。一个普遍确立的分类模式是:

a)  系统──计算机程序设计及数据库管理所必需的物理及逻辑特征,包括文件的定位、存储介质、记录格式、数据库模式、数据字典等信息;

b)应用──数据理解和应用所必需的信息,以及术语定义、搜集程序和工具、数据采集处理等信息;

c)       管理──成本、时间表、预算及与数据搜集项目、分析管理的相关信息。

综上所述,元数据是数据,并且就形式而言,可以依据数据模型和元模型进行组织。

对元数据的全面理解是所有数据用户建立此类模型的首要步骤。这些模型将成为建立元数据库的基础。同时这些模型也成为一些元数据分类的依据,因而,它们也成了分类方案的部分。

关于元数据的另一种观点则考虑了数据和元数据的可能用户的因素。每一类型的用户会有不同的需求,而且一些用户的需求是互不重叠的。一个程序员也许只需知道系统的元数据,而一个管理人员可能只想看看管理元数据。通常,数据分析员有更为广泛的需求,特别当他们是数据提供组织的外部用户时。总之,不同类型的用户,其需求(基于他们利用数据要回答和解决问题的类型)和水平都会对生成适合于他们的元数据产生影响。
二、举例说明:

下面是契诃夫的小说《套中人》中的一段,描写一个叫做瓦莲卡的女子:

(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋--一句话,不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动就发出一连串响亮的笑声:哈,哈,哈!

这段话里提供了这样几个信息:年龄(三十岁上下)、身高(个子高挑)、相貌(身材匀称,黑黑的眉毛,红红的脸蛋)、性格(活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑)。有了这些信息,我们就可以大致想像出瓦莲卡是个什么样的人。推而广之,只要提供这几类的信息,我们也可以推测出其他人的样子。

这个例子中的“年龄”、“身高”、“相貌”、“性格”,就是元数据,因为它们是用来描述具体数据/信息的数据/信息。

当然,这几个元数据用来刻画个人状况还不够精确。我们每个人从小到大,都填过《个人情况登记表》之类的东西吧,其中包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等……这一套元数据才算比较完备。

在日常生活中,元数据无所不在。有一类事物,就可以定义一套元数据。

喜欢拍摄数码照片的朋友应该知道,每张数码照片都包含EXIF信息。它就是一种用来描述数码图片的元数据。按照Exif 2.1标准,其中主要包含这样一些信息:

Image Description 图像描述、来源. 指生成图像的工具
Artist 作者 有些相机可以输入使用者的名字
Make 生产者 指产品生产厂家
Model 型号 指设备型号
Orientation方向 有的相机支持,有的不支持
XResolution/YResolution X/Y方向分辨率 本栏目已有专门条目解释此问题。
ResolutionUnit分辨率单位 一般为PPI
Software软件 显示固件Firmware版本
DateTime日期和时间
YCbCrPositioning 色相定位
ExifOffsetExif信息位置,定义Exif在信息在文件中的写入,有些软件不显示。
ExposureTime 曝光时间 即快门速度
FNumber光圈系数
ExposureProgram曝光程序 指程序式自动曝光的设置,各相机不同,可能是Sutter Priority(快门优先)、Aperture Priority(快门优先)等等。
ISO speed ratings感光度
ExifVersionExif版本
DateTimeOriginal创建时间
DateTimeDigitized数字化时间
ComponentsConfiguration图像构造(多指色彩组合方案)
CompressedBitsPerPixel(BPP)压缩时每像素色彩位 指压缩程度
ExposureBiasValue曝光补偿。
MaxApertureValue最大光圈
MeteringMode测光方式, 平均式测光、中央重点测光、点测光等。
Lightsource光源 指白平衡设置
Flash是否使用闪光灯。
FocalLength焦距,一般显示镜头物理焦距,有些软件可以定义一个系数,从而显示相当于35mm相机的焦距 MakerNote(User Comment)作者标记、说明、记录
FlashPixVersionFlashPix版本 (个别机型支持)
ColorSpace色域、色彩空间
ExifImageWidth(Pixel X Dimension)图像宽度 指横向像素数
ExifImageLength(Pixel Y Dimension)图像高度 指纵向像素数
Interoperability IFD通用性扩展项定义指针 和TIFF文件相关,具体含义不详
FileSource源文件 Compression压缩比。

我再举一个例子。在电影数据库IMDB上可以查到每一部电影的信息。IMDB本身也定义了一套元数据,用来描述每一部电影。下面是它的一级元数据,每一级下面又列出了二级元数据,总共加起来,可以从100多个方面刻画一部电影:

Cast and Crew(演职人员)、Company Credits(相关公司)、Basic Data(基本情况)、Plot & Quotes(情节和引语)、Fun Stuff(趣味信息)、Links to Other Sites(外部链接)、Box Office and Business(票房和商业开发)、Technical Info(技术信息)、Literature(书面内容)、Other Data(其他信息)。

元数据最大的好处是,它使信息的描述和分类可以实现格式化,从而为机器处理创造了可能。

原创粉丝点击