对于数据去重的处理-PDI导入前及数据库端的双重设定

来源:互联网 发布:木工简易算法在线阅读 编辑:程序博客网 时间:2024/06/10 22:47

数据重复是一个比较麻烦的问题,影响数据质量,这个问题困扰了我好一阵子,研究后,用以下方法解决。


首先是PDI导入前,在写入数据库之前增加一步Sort Rows来过滤数据,如果发现有重复的则只导入一条记录,用序列号和时间戳来检验数据唯一性,总体步骤如下:


数据库端的话,采用类似的方法,用indexs的方法,锁定序列号+时间戳为唯一值,这样如果有重复的话,数据也无法导入而报错,设置方法如下:


原创粉丝点击