海量数据处理之一

来源:互联网 发布:b*算法Java 编辑:程序博客网 时间:2024/04/28 09:54

项目组里因为需要,现要开发一个数据过滤软件,针对文本文件 (txt 文件 ) ,文本文件里的数据是 11 位的手机号码,数据约有四千万行,进行数据过滤 ( 重复号码过滤,位数非 11 位的进行过滤 ) 尽量脱离数据库。而且要提速,太慢了客户不满意的。

 

   显然在内存里过滤数据是最快的,可是显然对于 2G 内存的本来说,可分配给 JAVA HAEP 的大小是容不下这么多数据的。那怎么办呢?

 

索引机制:

   首先的想到的是通过 Lucene 索引机制,循环判断目标文件里是否已经存在要写入的号码,若不存在,则写入文件。

             

思路很清晰,但效率不高,主要是索引的速度不高,三十万的数据约要十几分钟,这太慢了。四千万的数据两个小时也跑不出来。

 

 

分割文件:

4000 万的数据文件约 500M ,一个文件太大,那可以把它分割成小文件,这里我采用的是安手机号的号段进行分割,比如把以 135 开头的手机号码读入一个文件,把 136 的开头的读入另一个文件 … 这样实际情况下是行的通的,可是如果理想的情况下是不通的,因为如果文本文件里手机号码 90% 都是 135*** 那分割后的文件 135 的还是太大了,不过可以实行循环分割,把第一次分割后的文件再次分割(取四位号码分割),如果文件还大,循环分割 …

 

    经测试:

 

Java代码
  1. * 371M 的文件(3000万的数据)  过滤数据耗时: 99844毫秒   
  2. * 520M 的文件(4200万的数据)  过滤数据耗时: 369359毫秒  
 * 371M 的文件(3000万的数据)  过滤数据耗时: 99844毫秒 * 520M 的文件(4200万的数据)  过滤数据耗时: 369359毫秒
 

  6 分钟可以搞定 4000 万的数据,从这个耗时看,效率有了很大的提升。基本可以满足用户的需要了。

    那是不是可以更快呢?

 

 

分割法 ( 内存机制 )

     第一步 :循环读取文件一遍,取出所有数据的前三位,即号段存入 List 中 ( 要滤重 )

第二步: 遍历 List 分别取出号段值 value ,再分别读取文件把数据是以 value 开头数据读入到 Set 中,当读文件结束时,写 Set 中的数据写入目标文件。

  经测试:

  

Java代码
  1. * 371M 的文件( 3000 万的数据)   过滤数据耗时 : 70672 毫秒   
  2. * 520M 的文件( 4200 万的数据)   过滤数据耗时 : 159016 毫秒   
* 371M 的文件( 3000 万的数据)   过滤数据耗时 : 70672 毫秒* 520M 的文件( 4200 万的数据)   过滤数据耗时 : 159016 毫秒 
 

 

2 多分钟可以搞定 4000 万的数据,从这个耗时看,效率有了很大的提升。已经可以满足用户的需要了。

    那是不是还可以更快呢?

原创粉丝点击