shell命令技巧——文本去重并保持原有顺序
来源:互联网 发布:php explode函数 编辑:程序博客网 时间:2024/05/16 05:24
简单来说,这个技巧对应的是如下一种场景
假设有文本如下
ccccaaaabbbbddddbbbbccccaaaa
现在需要对它进行去重处理,这个很简单,sort -u就可以搞定,但是如果我希望保持文本原有的顺序,比如这里有两个aaaa
,我只是希望去掉第二个aaaa
,而第一个aaaa
在bbbb
的前面,去重后仍旧要在它前面,所以我期望的输出结果是
ccccaaaabbbbdddd
当然,这个问题本身并不难,用C++或python写起来都很容易,但所谓杀机焉用牛刀,能用shell命令解决时,它永远都是我们的首选。答案在最后给出,下面说说我是如何想到这样
我们有时候想把自己的目录加入环境变量PATH时会在~/.bashrc文件中这样写,比如待加入的目录为$HOME/bin
export PATH=$HOME/bin:$PATH
这样我们等于是在PATH追加了路径$HOME/bin并让它在最前面被搜索到,但当我们执行source ~/.bashrc
后,$HOME/bin目录就会被加入PATH,如果我们下次再添加一个目录,比如
export PATH=$HOME/local/bin:$HOME/bin:$PATH
再执行source ~/.bashrc
时,$HOME/bin目录在PATH中其实会有两份记录,虽然这不影响使用,但对于一个强迫症来说,这是无法忍受的,于是问题就变成了,我们需要去掉$PATH里重复的路径,并且保持原有路径顺序不变,也就是原本谁在前面,去重后仍旧在前面,因为在执行shell命令时是从第一个路径开始查找的,所以顺序很重要
好了,说了这么多我们来揭示最终的结果,以文章开始的数据为例,假设输入文件是in.txt,命令如下
cat -n in.txt | sort -k2,2 -k1,1n | uniq -f1 | sort -k1,1n | cut -f2-
这些都是很简单的shell命令,下面稍作解释
cat -n in.txt : 输出文本,并在前面加上行号,以\t分隔sort -k2,2 -k1,1n : 对输入内容排序,primary key是第二个字段,second key是第一个字段并且按数字大小排序uniq -f1 : 忽略第一列,对文本进行去重,但输出时会包含第一列sort -k1,1n : 对输入内容排序,key是第一个字段并按数字大小排序cut -f2- : 输出第2列及之后的内容,默认分隔符为\t
大家可以从第一条命令开始,并依次组合,看看实际输出效果,那样便更容易理解了。对于$PATH中的重复路径又该如何处理呢,还是以前面的例子来说,只需在前后用tr做一下转换即可
export PATH=$HOME/local/bin:$HOME/bin:$PATHexport PATH=`echo $PATH | tr ':' '\n' | cat -n | sort -k2,2 -k1,1n | uniq -f1 | sort -k1,1n | cut -f2- | tr '\n' ':'`
其实这样使用PATH会有个问题,比如我们执行了以上命令后,如果想去掉$HOME/bin这个路径,仅仅修改为如下内容是不够的
export PATH=$HOME/local/bin:$PATHexport PATH=`echo $PATH | tr ':' '\n' | cat -n | sort -k2,2 -k1,1n | uniq -f1 | sort -k1,1n | cut -f2- | tr '\n' ':'`
因为我们已经将$HOME/bin加入了$PATH中,这样做并没有起到删除的作用,也许最好的方式还是自己清楚的知道所有路径,然后显示指定,而不是采取追加的方式
- shell命令技巧——文本去重并保持原有顺序
- java对List去重并且保持集合中的原有顺序
- 使用LinkedHashSet给ArrayList去重并保持顺序
- 使用LinkedHashSet对ArrayList去重并保持原顺序
- python 使用set对列表去重,并保持列表原来顺序
- python 使用set对列表去重,并保持列表原来顺序
- 将数组中的元素去重,并保持数组元素原顺序输出 要求时间复杂度尽可能的小
- string数组相加,去重,且保持顺序不变
- [039]文本去重、过滤——文本指纹
- POJ 1207 The 3n+1 problem(我的水题之路——输入输出要保持原有顺序)
- Idea xml 文本粘贴保持原有文本的缩进格式
- Linux Shell文本处理命令技巧
- python3.4.3下逐行读入txt文本并去重
- Python文本去重
- 文本去重simhash
- Linux中对文本去重的处理命令
- mysql技巧之数据去重并记录总数
- mysql技巧之数据去重并记录总数
- 移位运算<转载>
- 监听电话的log分析
- C++ 中string.find() 函数的用法总结
- ppt转成pdf格式的方法
- java中Date,String,timestamp转换问题
- shell命令技巧——文本去重并保持原有顺序
- Quartz2D方法
- android activity动画实现
- Hibernate
- u-boot在jz2440上移植
- 如何写一个可以设置等级的打印log,类似于 Debug版本 和release版本。
- hadoop开发中遇到的问题
- Mybatis拦截器介绍及分页插件
- 开源前端框架纵横谈