Linux命令 cat, sort, uniq及awk应用

来源：互联网发布：matlab svd 算法编辑：程序博客网时间：2024/05/22 13:24

一种常见的场景：文本1中含有若干行query词，其中query词可能有重复，文本2中也含有若干行query词，query词也有重复。如何快速找到2个文本中相同的query词？

下面给出了Linux命令的一种方法

sort -u A1 >A1.s && sort -u A2 >A2.s && cat A1.s A2.s | sort | uniq -d >duplicate

其中算法复杂度为O(nlogn+mlogm)，主要时间耗在排序之上。

若使用awk，则有

awk 'NR==FNR{A[$1] = $1;} NR >FNR {if ($1 in A)print $0}' A1 A2 >same

算法复杂度为O(m + n)，这是因为awk中数组是基于Hash的。NR，表示awk开始执行程序后所读取的数据行数。FNR，与NR功用类似，不同的是awk每打开一个新文件，FNR便从0重新累计。所以可以用NR和FNR比较区分两个文件。

1 0

Linux命令 cat, sort, uniq及awk应用
统计文本中某值字段数量-cat-awk-sort-uniq-c
sort及uniq命令使用
文本处理命令 cat more less cut wc sort uniq
Linux常用文本过滤命令(find grep wc awk sed sort uniq split)
用linux命令分析文件-排序-统计（sort, uniq, awk）
用linux命令分析文件-排序-统计（sort, uniq, awk）
Linux grep sed nl awk sort,uniq,cut,wc rsync命令详解
linux命令--查找与统计（grep、awk、sort、uniq、wc）
Linux去重排序计数分隔命令 awk sort wc uniq
sort uniq cat grep apache_log
Linux命令去重统计排序（awk命令去重，sort, uniq命令去重统计）
正则表达式及grep、sed、awk、cut、sort、uniq工具
linux sort,uniq,cut,wc命令详解
linux sort,uniq,cut,wc命令详解
linux sort,uniq,cut,wc命令详解
linux命令之uniq sort cut
linux sort,uniq,cut,wc命令详解
android增量更新中增量文件的生成和合并
程序员如何快速准备面试中的算法
qq列表拖拽效果
swift 系统学习 03 三目区间运算符开区间闭区间和三目类似的还有一个空合/聚合运算符
LeetCode 238 计算数组除自己外的元素乘积
Linux命令 cat, sort, uniq及awk应用
SQLite AUTO INCREMENT/自动递增
公钥，私钥，数字签名，数字证书详解
node express ejs 搭建个人网站（1）
struts2基础——需要注意的几点
C语言、C++：为什么要内存对齐?
swift 系统学习 04 可选值解包解包的几种方式
Cookie学习
Ubuntu下无法检测到设备，adb显示insufficient permission for device