Linux命令 cat, sort, uniq及awk应用
来源:互联网 发布:matlab svd 算法 编辑:程序博客网 时间:2024/05/22 13:24
一种常见的场景: 文本1中含有若干行query词,其中query词可能有重复,文本2中也含有若干行query词,query词也有重复。如何快速找到2个文本中相同的query词?
下面给出了Linux命令的一种方法
sort -u A1 >A1.s && sort -u A2 >A2.s && cat A1.s A2.s | sort | uniq -d >duplicate
其中算法复杂度为O(nlogn+mlogm),主要时间耗在排序之上。
若使用awk,则有
awk 'NR==FNR{A[$1] = $1;} NR >FNR {if ($1 in A)print $0}' A1 A2 >same
算法复杂度为O(m + n),这是因为awk中数组是基于Hash的。NR,表示awk开始执行程序后所读取的数据行数。FNR,与NR功用类似,不同的是awk每打开一个新文件,FNR便从0重新累计。所以可以用NR和FNR比较区分两个文件。
1 0
- Linux命令 cat, sort, uniq及awk应用
- 统计文本中某值字段数量-cat-awk-sort-uniq-c
- sort及uniq命令使用
- 文本处理命令 cat more less cut wc sort uniq
- Linux常用文本过滤命令(find grep wc awk sed sort uniq split)
- 用linux命令分析文件-排序-统计(sort, uniq, awk)
- 用linux命令分析文件-排序-统计(sort, uniq, awk)
- Linux grep sed nl awk sort,uniq,cut,wc rsync命令详解
- linux命令--查找与统计(grep、awk、sort、uniq、wc)
- Linux去重 排序 计数 分隔 命令 awk sort wc uniq
- sort uniq cat grep apache_log
- Linux命令去重统计排序(awk命令去重,sort, uniq命令去重统计)
- 正则表达式及grep、sed、awk、cut、sort、uniq工具
- linux sort,uniq,cut,wc命令详解
- linux sort,uniq,cut,wc命令详解
- linux sort,uniq,cut,wc命令详解
- linux命令之uniq sort cut
- linux sort,uniq,cut,wc命令详解
- android增量更新中增量文件的生成和合并
- 程序员如何快速准备面试中的算法
- qq列表拖拽效果
- swift 系统学习 03 三目 区间运算符 开区间 闭区间 和三目类似的还有一个空合/聚合运算符
- LeetCode 238 计算数组除自己外的元素乘积
- Linux命令 cat, sort, uniq及awk应用
- SQLite AUTO INCREMENT/自动递增
- 公钥,私钥,数字签名,数字证书详解
- node express ejs 搭建个人网站(1)
- struts2基础——需要注意的几点
- C语言、C++:为什么要内存对齐?
- swift 系统学习 04 可选值 解包 解包的几种方式
- Cookie学习
- Ubuntu下无法检测到设备,adb显示insufficient permission for device