在kettle中实现数据验证和检查
来源:互联网 发布:剑雨江湖问鼎仙道数据 编辑:程序博客网 时间:2024/05/20 17:10
在kettle中实现数据验证和检查
在ETL项目,输入数据通常不能保证一致性。在kettle中有一些步骤可以实现数据验证或检查。验证步骤可以在一些计算的基础上验证行货字段;过滤步骤实现数据过滤;javascript步骤可以实现更复杂的计算。
通常以某种方式查看那些数据是有缺陷的也是有用的,因为大多数ETL是无人值守运行的,所以通常ETL程序会把这些缺陷数据通知给ETL开发者或管理员。建议把这些问题数据行保存到一个特定的公共表格中,以便跟踪这些数据;那么该表格应该包括一些元信息,如:运行转换的名称、验证错误及错误描述等。
在这里下载示例文件,csv输入文件中记录客户到达和离开的两个健身场所,转换程序验证客户ID,场所名称,日期格式,给定日期的合理性。正确的数据写入到excel文件,错误数据重定向到错误收集步骤,每行错误数据被拼成一个字符字段,同时也收集一些关于转换的元数据信息及错误描述,最终这些错误数据行信息保存到另一个excel文件。
实际场景中输出步骤更可能是表输出步骤,“get System Info”步骤会收集更多数据,之后的错误手机步骤,最好使用子转换,为了在其他转换中重用。
以结构化的方式保存验证错误也使很好地方便数据监测成为可能,ETL过程完成后,可以简单地发送邮件给管理员,简短的说明关于包括错误代码,转换名称,BATCH_ID等数据的缺陷,以及任何你需要的元数据。如果你工作是关于DWH或BI方面的,现在手头已经有了必要的工具。如果您不想使用的excel报告的方式,你可能仍然使用kettle的job创建一个简短的报告文件,并邮寄给了管理员。
- 在kettle中实现数据验证和检查
- 在SQL Server中使用检查约束来验证数据
- kettle实现数据转换
- 三种方法在Infopath中实现数据有效性验证
- 聚合数据手机验证码在ThinkPHP中实现
- Kettle 在应用中遇到的一些问题和解决方法
- PHP验证和检查
- Kettle数据同步和抽取
- 在Web中集成Kettle
- 在Web中集成Kettle
- Kettle实现文本文件数据抽取方法 Kettle Txt To Database
- 在Kettle里使用时间戳实现变化数据捕获(CDC)
- 在Kettle里使用快照实现变化数据捕获(CDC)
- 在Kettle里使用参照表进行数据校验(流查询实现)
- 在Kettle里使用参照表进行数据校验(子转换实现)
- 在flex实现数据验证(1)
- kettle实现文本文件数据抽取方法
- kettle实现文本文件数据抽取方法
- 投资牛人
- 实现iframe的onclick事件
- 2012 天津站B题||hdu4432 进制转换 模拟
- centos6.5 升级 Python
- BroadcastReceiver应用详解
- 在kettle中实现数据验证和检查
- 给 iframe 添加 onclick 事件
- winsock
- 支持取消操作和暂停操作的Backgroundworker
- 阿里2015校园招聘广州站 面试经历
- ldd3 hello world
- TexturePacker
- 关于JavaScript的全局变量的问题
- android应用开发详解(四)----------各种菜单(optionmenu、contextmenu、submenu)和Toast的使用