《实体解析与信息质量》-1.2.2 实体引用准备

来源:互联网 发布:大数据云平台 编辑:程序博客网 时间:2024/05/21 06:48

实体引用准备

为了有效的执行处理过程,即使使用的是结构化格式的实体引用数据,额外的预处理仍然是很必要的。一般这个预处理过程被称为ETLextract, transform, and load)。有时候也被称为数据清洗.

 

以下是为实体解析做预处理的通常流程(Talley,Talburt, Chan, 2010)

编码—将输入数据从一种编码格式转换为另一种。例如,将ASCII 编码的数据转换成EBCDIC 编码的数据。

转换—数据展示形式的转换。例如,二进制整数转成字符数例如:将二进制的010111转换成“23

结构化—将数据的表示形式转换为一个通用的用户定义的格式。例如,把性别的值“1”或“男”换成“M”;把“Avenue”或“Av”换成“AVE”。

纠正—基于认证过的参考数据改变某些值。例如,利用省市区等地址信息搜索邮编表,来纠正邮编码。

分类—基于数值分到相应的代号组别。例如,¥183,437.5¥305,729.17B组,则收入¥275,156.25划分为B

拆分—将当条记录拆成多条记录。例如,Johnand Mary Doe, Oak Street可以拆成JohnDoe, Oak StreetMaryDoe, Oak Street

校验—根据一定的规则查看数据值和数据项之间的合理性。例如,账户的交易日期不能早于帐户的创建日期。

填充—基于参考数据,添加一些不存在于原始数据的信息。例如,添加基于街道地址的经度和纬度坐标。

 

ETL阶段,信息质量(IQinformationquality)的原则和实践被最大限度的应用于此。ERIQ密切相关,不仅是因为提高引用源的质量可以大大提高ER处理的结果,通过ER整合引用数据也可以进一步提高系统信息的整体质量。ERIQ的许多概念和最佳实践都出现与90年代早期,数据仓库提出并得到普及的时候(Inmon,1992; Kimball, Ross, Thornthwaite, et al., 1998; English, 1999)。大多数组织在当时并不知道他们的组织数据存储状况恶劣,并且互相冲突,直到他们尝试着将其整合成一个单一的数据库。

 

下一章节将会更深入的解释ERIQ之间的这一关系。

0 0
原创粉丝点击