《实体解析与信息质量》-1.2.2 实体引用准备
来源:互联网 发布:大数据云平台 编辑:程序博客网 时间:2024/05/21 06:48
实体引用准备
为了有效的执行处理过程,即使使用的是结构化格式的实体引用数据,额外的预处理仍然是很必要的。一般这个预处理过程被称为ETL(extract, transform, and load)。有时候也被称为数据清洗.
以下是为实体解析做预处理的通常流程(Talley,Talburt, Chan, 2010):
编码—将输入数据从一种编码格式转换为另一种。例如,将ASCII 编码的数据转换成EBCDIC 编码的数据。
转换—数据展示形式的转换。例如,二进制整数转成字符数例如:将二进制的010111转换成“23”
结构化—将数据的表示形式转换为一个通用的用户定义的格式。例如,把性别的值“1”或“男”换成“M”;把“Avenue”或“Av”换成“AVE”。
纠正—基于认证过的参考数据改变某些值。例如,利用省市区等地址信息搜索邮编表,来纠正邮编码。
分类—基于数值分到相应的代号组别。例如,¥183,437.5到¥305,729.17为B组,则收入¥275,156.25划分为B。
拆分—将当条记录拆成多条记录。例如,Johnand Mary Doe, Oak Street可以拆成JohnDoe, Oak Street和MaryDoe, Oak Street。
校验—根据一定的规则查看数据值和数据项之间的合理性。例如,账户的交易日期不能早于帐户的创建日期。
填充—基于参考数据,添加一些不存在于原始数据的信息。例如,添加基于街道地址的经度和纬度坐标。
在ETL阶段,信息质量(IQ,informationquality)的原则和实践被最大限度的应用于此。ER和IQ密切相关,不仅是因为提高引用源的质量可以大大提高ER处理的结果,通过ER整合引用数据也可以进一步提高系统信息的整体质量。ER和IQ的许多概念和最佳实践都出现与90年代早期,数据仓库提出并得到普及的时候(Inmon,1992; Kimball, Ross, Thornthwaite, et al., 1998; English, 1999)。大多数组织在当时并不知道他们的组织数据存储状况恶劣,并且互相冲突,直到他们尝试着将其整合成一个单一的数据库。
下一章节将会更深入的解释ER和IQ之间的这一关系。
- 《实体解析与信息质量》-1.2.2 实体引用准备
- 《实体解析与信息质量》-1.2.3.实体引用解析
- 《实体解析与信息质量》-1.2.1 实体引用抽取
- 《实体解析与信息质量》-1.1.3 实体和引用
- 《实体解析与信息质量》 - 1.2.0 实体解析过程
- 《实体解析与信息质量》-1.2.4.实体身份管理
- 《实体解析与信息质量》-1.2.5.实体关系分析
- 《实体解析与信息质量》 - 1.1.1 实体解析
- 《实体解析与信息质量》 - 目录
- 《实体解析与信息质量》 - 序言
- 《实体解析与信息质量》- 创作动力
- 《实体解析与信息质量》-1.2.6.总结
- 《实体解析与信息质量》-1.2.7 复习题
- 《实体解析与信息质量》 - 1.1.2 背景介绍
- 《实体解析与信息质量》 - 3.1.2 SERF模型
- 《实体解析与信息质量》-2.1.1信息质量
- 《实体解析与信息质量》-2.1.2信息质量和信息品质
- 《实体解析与信息质量》- 2.1.9 信息质量(IQ)和实体解析(ER)
- java工厂模式
- JAVA垃圾收集器之CMS收集器
- WPF 自定义listbox的ItemTemplate实现通讯录
- DOM4jHelper
- js实现复制的功能
- 《实体解析与信息质量》-1.2.2 实体引用准备
- [Leetcode]Validate Binary Search Tree
- Binary Search Tree Iterator
- Linux中的oom
- IBM存储多路径软件
- Android中的资源访问
- 75个像素网页小图标素材
- 企业微信营销要以人为本
- 冰箱的存放方法和除异味贴士-北京LG冰箱维修-北京LG冰箱维修电话