Linux命令 cat, sort, uniq及awk应用

来源:互联网 发布:matlab svd 算法 编辑:程序博客网 时间:2024/05/22 13:24

一种常见的场景: 文本1中含有若干行query词,其中query词可能有重复,文本2中也含有若干行query词,query词也有重复。如何快速找到2个文本中相同的query词?


下面给出了Linux命令的一种方法

sort -u A1 >A1.s && sort -u A2 >A2.s && cat A1.s A2.s | sort | uniq -d >duplicate

其中算法复杂度为O(nlogn+mlogm),主要时间耗在排序之上。

        

若使用awk,则有

awk  'NR==FNR{A[$1] = $1;} NR >FNR {if ($1 in A)print  $0}' A1 A2 >same 

        算法复杂度为O(m + n),这是因为awk中数组是基于Hash的。NR,表示awk开始执行程序后所读取的数据行数。FNR,与NR功用类似,不同的是awk每打开一个新文件,FNR便从0重新累计。所以可以用NR和FNR比较区分两个文件。

1 0
原创粉丝点击