数据库数据去重方法

来源:互联网 发布:少儿编程网 编辑:程序博客网 时间:2024/04/27 17:03

    关键是去重的思想和方法,希望有建议给我留言,谢谢

1.   2个结果进行union 时,也可以去重2.   group by 也可以去重

====Below is a reprint of others====



假设现在数据库中有一个人员表(user),表中包括 主键ID,,姓名、身份证号码、等字段。由于程序的的原因、好来发现表中有许多理论上重复的数据(即姓名、和身份证号相同的数据),现在要求根据身份证号码和姓名去除表中的重复数据。

    该怎么做呢,这里有一个方案可以参考一下:

    select Max(ID) as Id,姓名,身份证号 from User group by 姓名,身份证号;

   通过上面的这条Sql语句即可得到一份没有重复姓名和身份证号的一组数据,当然只等得到Id、姓名、和身份证号,其实我们真正想要的只有Id一列而已。因为我们只要得到没有重复数据的id就可以找出所有的并且不重复的数据了。

   接下类我们使用嵌套的查询 得到所有的不重复数据的Id

   select Id  from (select Max(ID) as Id,姓名,身份证号 from User group by 姓名,身份证号) as t

  得到我们需要的ID之后我们可以有好几种选择:1、使用  not IN 删除所有Id不在以上查出的Id范围的数据。即删除重复的数据

  delete form user where  id not in (select Id from (select Max(ID) as Id,姓名,身份证号 from User group by 姓名,身份证号) as t );

使用not in 非常耗费数据库资源,并且 如果数据量大的话,会非常的慢,可能会慢的难以忍受,因此不建议使用。

 除了可以使用 Not In 之外还可以使用临时表的方法:

       1、找出所有不重复的数据

       select * into #temp1  from user where id in (select Id from (select Max(ID) as Id,姓名,身份证号 from User group by 姓名,身份证号) as t );

  2,删除原表中的所有数据

      delete from user;

     3、将临时表中的数据在插入会user表

   insert into user  select * from #temp1;

     4,删除临时表

      drop #temp1;

    现在总结一下我的思路

   这里的关键是根据需要判断是否重复的字段分组后、使用聚合函数Max 或者Min得到唯一的ID,这一点十分重要、

0 0
原创粉丝点击