怎么对10亿个电话号码进行去重

来源:互联网 发布:数码视讯 软件测试 编辑:程序博客网 时间:2024/04/28 06:25

方法一:

通过哈希算法,将10亿个电话号码按照哈希值落在多个文件中,

重复的电话号码有相同的哈希值,肯定位于一个文件中,

这样就可以分别对每个文件排序删除重复的电话号码。

方法二:

使用位图来进行处理。比如说这10亿个数的范围为【0-10亿】,那么就申请一个10亿的数组,

数组类型为boolen,只有0和1,0表示没有,1表示有。

这样自然而然的就删掉了重复的部分。

原创粉丝点击