《实体解析与信息质量》-2.1.1信息质量

来源:互联网 发布:网络大电影导演片酬 编辑:程序博客网 时间:2024/05/18 00:01

什么是信息质量

随着组织当中信息类资产数量的不断增加(Redman,2008),信息已经不仅仅被用于驱动组织当中的行政过程,它还常常被用来发掘组织中的有价值的情报(Chan,Talburt, Talley, 2010)。这些情报信息可以被用来提高组织的表现,并让组织在市场上获得竞争优势。信息质量(InformationQuality, IQ) 的出现,定义了这样的一系列基本原则,使得应用这些原则的组织能够最大化的利用组织内部的信息资产,并确保所有的信息产品为用户提供他们想要的信息(Talburt, 2009)

IQDQ

术语数据质量 (Data Quality, DQ)常常被和IQ混为一谈。大多数的研究人员同意数据和信息并不相同这一观点,但具体到细节上,却仍然不能统一意见。至于IQDQ是否有着实质上的区别,业界还有争议。 Fisher, Luaria, Chengalur-Smith, Wang (2006) 曾经从其它更重要的IQ问题中挑出这一个与不要同意见者辩论。像Eppler(2006)便认为应当更加清楚的加以区分。本文认为,正如其它术语之间的争议一样,只要能够清楚的阐明作者的观点,使用任何一个都不是什么大问题。

在本书中,IQ被认为是一种准则,这些准则中包含了关于DQ,以及还有其它诸如主数据管理 (masterdata management, MDM)和数据监管(data governance, DG)的知识和实践。经过长期的对IQ的实践以及文献的调查和分析,国际信息和数据质量组织 (International Association for Informationand Data Quality, IAIDA)IQ定义为为解决一下六个领域的问题的知识和技巧 (IAIDQ, 2010)

1.      信息质量策略和监管。“包括为提供组织数据的决策以及确保在其生命周期中由合适人选对其进行管理来创建所需要提供的数据结构以及流程的努力。”

2.      信息质量环境和文化。“…提供一个使得组织员工可以持续不断的确认,设计,开发,生产,交付以及支持为满足客户需求的信息质量的背景。

3.      信息质量价值和商业影响。“……用于判断数据质量对业务上的影响的技术以及用来为信息质量项目优先级排序的方法。

4.      信息架构质量。“…包括为了保障组织信息蓝图质量的任务。

5.      信息质量度量和改良。“…覆盖了为完成数据质量改良项目的步骤。

6.      维护信息质量。“…专注于为确保信息质量的可持续性的流程以及管理系统。

IAIDQIQ框架中,与DQ有关的任务主要可以归纳在最后三个领域当中。DQ主要关注于使用一系列的规格和需求来度量数据本身的状况。而IQ则覆盖了所有六个领域,包括信息产品用户的外部视图,组织层面的数据管理以及信息的提供。为了能够更深入的理解IQ,我们首先利用信息理论的两种方法来讨论信息和数据的概念。

香农信息论

本文要讨论的第一个有关信息的理论是由克劳德香农 (Shannon, 1948)发明于1940年他在贝尔实验室工作的时候。不出所料的是,这个理论是从沟通的角度来定义了信息。香农将信息特征化为一条从发送者传递到接收者的消息,该消息应当是以一种接收者可以理解的形式。在香农模型中,消息的实际内容及其真实性并不重要,重要的是消息在传递过程中的完整性。由于在电子信息传递系统当中,总是或多或少包含着一定的噪音。香农定理真实关注于此点,以开发出一种对消息的编码与解码的方法,使得消息在传递过程中具备一定的抗噪能力。

香农模型中的一个重要概念就是数据和信息的区别。数据被看作是有关系统状态的一种断言。而当数据在不同系统间进行传递并被接收者解释的时候,就成了信息。

对于任意离散随机变量X,假设X可能结果集为{X1, …, Xn}PjX是值Xj的概率,那么X熵值 (Shannon entropy of X) ,用H(X)表示,的公式则为:

香农熵值被用来根据比较信息的关系以及它们出现的频率来估算编码消息所需要的二进制字节数 (bits)

费雪信息理论

另一种从统计模型角度出发的看待信息的方法由R.A.Fisher(Fisher, 1925)提出。不同于香农理论,费雪信息理论关注这样一个问题:对于某个未知参数,能否通过一组观察结果来判断出它的值。如果站在香农理论的消息模型框架中来看,费雪信息便是试图通过传递一系列的消息,来将某个特定的数据传给接收者。费雪信息论关注每条消息中所包含的信息数量即对于依赖于属性θ的给定随机变量X,概率密度函数P (X|θ) 能包含多少关于θ的信息。本质上来讲,费雪信息理论是一种评分机制,它的期望评分为0。费雪信息理论公式是:

信息价值

由于更关注于消息的内容,你可能会认为最好从费雪信息理论入手来定义IQ。但这并非全然正确,香农和费雪都为理解IQ提供了关键的概念定义。香农将消息接收者定义为一个对信息质量进行衡量的角色,而这正是IQ中最重要的一个观点。然而,还有另一个对于理解IQ也是十分必要的,却没有在香农和费雪模型中被提及:关于消息的意图的概念即消息接收者会用该数据做什么,或者更重要的问题,对于消息接收者来说,这些信息有价值么?这三个有关信息的格式,含义及目的的概念构成了IQ的基石,并将之变成了可衡量的事物。在符号学中,关于符号和标记的研究也有这样相同的三个概念,相应的被称为词法,语法以及语用论 (Eco, 1976)

0 0
原创粉丝点击