数据质量提升必达之路
来源:互联网 发布:奥鹏网络研修总结作业 编辑:程序博客网 时间:2024/04/30 05:51
随着数据量日益剧增,企业决策比以往更需要具备强大的信息管理和掌控能力,协助解决关键问题;若要提升企业竞争优势,必须随时掌握企业内的准确信息,如何去解决数据质量问题是一条必经之路。
纵观众多用户经常碰到的数据质量问题,概括归纳如下。
策略与思想
IBM公司针对数据质量问题,从计划、设计、部署和管理等方面,为用户提供了全面的、有效的、长久的战略手段和解决方案。
调查研究
“没有调查研究,就没有发言权”,这是中国伟人毛泽东思想,也是指导我们对数据质量进行了解、分析和认知的原则。
使用 IBM InfoSphere Information Analyzer 软件工具实现对数据进行全面分析,包括技术层面和业务层面,体现如下:
- 标准评估:为您数据源的结构、内容和质量建立一个全面、整体的认知。
- 数据规则:通过定制并不断地调整自定义数据质量规则来对您的数据进行更深入的质量验证,趋势预测和模式分析。
- 报告指标:通过对分析结果的鉴别、评估以及异常管理来限制数据质量的恶化,从而降低风险。
转换与变身
当全面了解清楚数据,明察秋毫后,有了依据就对“问题”数据进行大刀阔斧地转换,重点在使用 DataStage ETL工具进行技术层面处理,主要包括:数据格式标准化、数据裁剪,合并和转化等。
- 交付一致、准确的业务数据,提供可重用的信息服务;
- 无需编码,在数分钟内就可以构建并发布一个数据整合服务;
- 灵活的部署,支持多种协议和数据格式,能为各种类型的应用提供可重用的信息服务。
清洗与提升
使用 QualityStage数据清洗工具,按照业务要求进行数据规范化处理,对自由格式数据按照业务规则进行标准、匹配、去重复等处理。
- 通过数据调研可以揭示数据中的趋势和潜在异常,验证和发现数据字段中的业务规则,识别无效值、或默认值,在上下文环境中全面了解面向业务的数据语义。
- 标准化数据,将不同格式的数据转换成统一标准的格式,识别并改正无效值,标准化拼写和缩写格式。
- 利用业界领先的基于统计的概率性匹配算法识别一个或多个数据源之间的重复数据,建立不同记录间的数据联系。
- 根据重复数据交叉填充“最佳的”可用数据,保留“最佳”的信息创建一个“合并的”记录。
- 直观易用的图形化用户界面,与DataStage无缝整合。
实现目标
- 建立了业务数据质量问题分析和评估系统,作为制定数据质量控制流程的依据;
- 对所有数据进行扫描, 发现数据中潜在的不规则和不一致;
- 定位不合法的值,残缺不全的值,发现未被记录下来的业务规则,进行数据清洗和转换;
- 实现企业的数据质量验证、监控,流程化管理和生产运行。
总结
数据质量提升是个“很大”的话题,涉及业务法规、技术手段和监管等多方面。IBM为其客户提供了能“脚踏实地”提升数据质量的解决方案,领先竞争对手,和开展更好业务。
在全球,IBM已拥有大批采用该解决方案去实施数据治理项目,并取得成功。
更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>
1 0
- 数据质量提升必达之路
- 利用线上数据提升移动app质量
- 通过可视化数据分析提升测试质量
- 通过可视化数据分析提升测试质量
- 团队代码质量提升之我见
- 数据集质量提升方法及代码实现
- android studio之Lint代码质量控制提升
- 数据清洗之数据质量检查
- 提升软件质量---- 一致性
- 用敏捷提升质量
- 克服困难 提升生命质量
- 代码质量提升
- 提升代码质量
- 如何提升测试质量??
- IPTV质量提升
- xocoder提升之路:
- ios-提升之【6】-数据持久化
- 淘宝开店必知之数据分析
- 2016.8.11面试点
- 图论 生成树 POJ 1251 Jungle Roads (prim)(Kruskal)
- 身份实名认证返照
- hdu-1052-Tian Ji -- The Horse Racing(经典)
- POJ3694
- 数据质量提升必达之路
- Android Studio中使用git将项目推送到github
- upper_bound()返回值 lower_bound()返回值
- iOS网络编程 get post 区别
- Ubuntu X64 系统安装配置编录
- Fragment仿qq界面
- java定义二维数组的几种写法(转)
- windows+python3.5环境下安装selenium后无法导入webdriver的解决方法
- 关于UISearchDisplayController的一些使用经验分享