perl并行处理大文件

来源:互联网 发布:3m金融互助平台源码 编辑:程序博客网 时间:2024/05/18 13:46

有时候会需要对大文件进行并行处理.

对于文本文件,需要保证行的完整性.

一种是快速跳过不需要的行

#!/bin/env perluse strict;my $m=$ARGV[0];  #分成m份my $l=$ARGV[1];  #第l份my $file="test1.txt";#my $line=`wc -l $file`;#my ($linenum)=$line=~/(\d+)/;my $linenum=10;my $n=int($linenum/$m);  #每份做n行open( READ, "<$file" );my $i=0;while (<READ>) {   #print $i;  if ($i>=($l-1)*$n){  &doit();  }  $i++;  last if ($i>=$l*$n || $i>linenum)}sub doit(){  print $_;}close READ;


改进一些的方法是使用seek,但是需要处理不完整行,可以让前一个进程多处理一行,后一个进程少处理一行

 

#!/bin/env perluse strict;my $m=$ARGV[0];  #分成m份my $l=$ARGV[1];  #第l份my $file="test1.txt";my @args = stat ($file);my $size = $args[7];my $n=int($size/$m);  #每份做nbytesopen( READ, "<$file" );seek READ,(($l-1)*$n),0;    #非第一份,少读第一行  if($l>1){  my $tmpline = <READ>;  }  while (<READ>) {    &doit();   my $position = tell(READ);  last if ($position> $l*$n || $position>=$size); #多读一行 }sub doit(){  print $_;}close READ;


原创粉丝点击