linux split join paste uniq tee sort 工作中文本操作常用方法

来源：互联网发布：远程监控软件下载编辑：程序博客网时间：2024/05/22 09:46

本文主要是linux文本常见命令，主要内容如下：

split命令将文件按指定行数/size分成小文件，grep -c / awk/wc -l file*统计每个文件行数
join/paste将多个文件按照列合并
tee >>流重定向到文件， /dev/null使用
sort对文件按照指定列排序， uniq按照列获取唯一列大小，每列计数等
cat/tac文件查看，内容重定向到文件
head /tail /less常用功能

split命令将文件按指定行数/size分成小文件，grep -c / awk/wc -l file*统计每个文件行数

工作中有时候需要将一个很大的文件分成一个个小的文件(日志文件很大，直接统计太耗性能，有时可以考虑将其分为小文件在处理)，比如一个文件有100K行,我们一个把他分成100个每个只含有1K行的小文件，使用(google -> linux split file into small files by line num)

split -l 1000 large.txt

例如下面我们将一个文件分成小文件每个10行

这里写图片描述

grep -c “” 统计每个文件的大小

root@admin:~/real_dir#  for f in xa*;do echo "$f";grep -c "" $f;donexaa10xab10xac10xad2

当然也可以使用awk将文件名按照参数传递统计(google-> awk count file line/ linux pass parameter to awk )：

这里写图片描述

当然统计行数首先想到 wc -l （也可统计多个文件，一般统计一个）

# for statistic every file line, just wc -l xa*# for example(google -> linux count multiple files line num)root@ubuntu:/data/services# wc -l out*  10 out1.txt  10 out2.txt  20 total

split 也可以分割 .zip 文件，默认的文件名是 x* ,默认1000行。
当然我们也可以添加前缀例如：

$ split -a5 split.zip$ lssplit.zip  xaaaac  xaaaaf  xaaaai  xaaaal  ...xaaaaa     xaaaad  xaaaag  # 数字前缀$ split -d split.zip$ lssplit.zip  x01  x03  x05  x07  x09  ...x00        x02  x04  x06  x08

join/paste将多个文件按照列合并

paste将文件按照列合并(google->linux merge files by column),例如：

#文件file1， file2内容如下cat file1file1 line1file1 line2cat file2file2 line1file2 line2# 下面paste将文件file1 2 按照列合并，然后awk输出最后重定向到file3中paste file{1,2} | awk '{print $1, $2, $3, $4}' > file3#输出file3cat file3file1 line1 file2 line1file1 line2 file2 line2# awk 输出所有文件内容root@ubuntu:/data/services# awk '1' file*file1 line1file1 line2file2 line1file2 line2file1 line1 file2 line1file1 line2 file2 line2

join将文件按照列合并，

#文件file1， file2内容如下cat file1file1 line1file1 line2cat file2file2 line1file2 line2#使用join的时候默认需要第一列相等，由此我们考虑使用cat -n这个每行内容加上了行数，即可，使用 `<` 将输出作为stdin标准输入流root@ubuntu:/data/services# join <(cat -n file1) <(cat -n file2)1 file1 line1 file2 line12 file1 line2 file2 line2

join 按照指定的列合并：

cat wine.txtRed Beaunes FranceWhite Reisling GermanyRed Riocha Spaincat reviews.txtBeaunes Great!Reisling Terrible!Riocha Meh#我们需要把 wine.txt按照第二列，reviews.txt按照第一列：join -1 2 -2 1 wine.txt reviews.txtBeaunes Red France Great!Reisling White Germany Terrible!Riocha Red Spain Meh

join在合并前需要我们对指定的列是排好序的，如果指定列没有排序则会报错：

cat wine.txtWhite Reisling GermanyRed Riocha SpainRed Beaunes Francecat reviews.txtRiocha MehBeaunes Great!Reisling Terrible!join -1 2 -2 1 wine.txt reviews.txt# 报错如下：#join: wine.txt:3: is not sorted: Red Beaunes France#join: reviews.txt:2: is not sorted: Beaunes Great!# 使用sort按照列排序，然后重定向即可join -1 2 -2 1 <(sort -k 2 wine.txt) <(sort reviews.txt)Beaunes Red France Great!Reisling White Germany Terrible!Riocha Red Spain Meh

join默认是按照空格作为分隔符，当然我们也可以指定：

cat wine.txtRed，Beaunes，FranceWhite Reisling，GermanyRed，Riocha，Spaincat reviews.txtBeaunes，Great!Reisling，Terrible!Riocha，Meh# 指定即可join -t,  wine.txt reviews.txt

join -o指定列的顺序：

cat names.csv1,John Smith,London2,Arthur Dent, Newcastle3,Sophie Smith,Londoncat transactions.csv£1234,Deposit,John Smith£4534,Withdrawal,Arthur Dent£4675,Deposit,Sophie Smithjoin -1 2 -2 3 -t , names.csv transactions.csvJohn Smith,1,London,£1234,DepositArthur Dent,2, Newcastle,£4534,WithdrawalSophie Smith,3,London,£4675,Depositjoin -1 2 -2 3 -t , -o 1.1,1.2,1.3,2.2,2.1 names.csv transactions.csv1,John Smith,London,Deposit,£12342,Arthur Dent, Newcastle,Withdrawal,£45343,Sophie Smith,London,Deposit,£4675

tee >>流重定向到文件， /dev/null使用

比如我们要将标准输出（stdout）标准错误输出（stderr）输出到终端以及文件中可以使用

command |& tee file.log

追加到日志文件

command |& tee -a output.txt
或者是
./ex1 > outfile 2>&1 或者 ./ex1 &> outfile

下面是caffe图片训练时候的结果输出到日志文件（图片来自个人笔记）：

这里写图片描述

sort对文件按照指定列排序， uniq按照列获取唯一列大小，每列计数等

uniq对文件的指定的列取unique的时候需要指定列已经是排好序，例如：

$ cat testaaaabbbb$ uniq test.txtaabb# 如果不排序的话文件内容如下，使用 uniq test.txt输出结果不变aabbaabb

使用uniq -c 统计每个key对应的行数：

$ uniq -c test.txt      2 aa      2 bb

这对于日志统计还是挺有作用的，例如我们要统计日志中：error_info, 以及 warn_info行数（已经排好序）
可以 uniq -c log.txt | grep -e 'error_info' -e 'warn_info'

输出重复的列：uniq -d filename
只按照指定字符统计例如按照前10个字符作为keyuniq -c -w 10 filename
sort排序 -f：忽略大小写，-b：忽略前面的空格，-n使用纯数字排序 -t: 分隔符默认的是 Tab ,-k:区间 -r反向排序

这里写图片描述

指定uniq

cat awk_test.txt 10,15-10-2014,abc20,12-10-2014,bcd10,09-10-2014,defsort -u -t, -k 1 awk_test.txt 10,15-10-2014,abc20,12-10-2014,bcd

我们也可以对文件大小排序显示（-n按照数字排序而不是字符串）：
ll | sort -k 5 -n

也可以（-h 按照文件大小）：

$ cat test2M1G1K$ sort -h test1K2M1G

下面是深度学习train.txt（每个类别的样本数量，类型统计，并排序）
其中0,1….代表类别0， 1…..后面的代表数量
这里写图片描述

cat/tac文件查看，内容重定向到文件

cat的使用一般就是 :

cat file (输出file所有内容)
cat file > output.txt(重定向写到文件)
cat -n file 输出行号

tac 反向输出文件

head /tail /less常用功能

head
* head -2 file输出前两行(head file 默认的前十行)
* head -n 2 file（输出前两行带行号）

tail 一般就是
* tail -f log.txt动态查看日志
* tail file(默认查看后十行)

上面很多命令是实践中常用的总结，部分来源与google搜索，以及
http://www.thegeekstuff.com/category/sed/ 这位大神的bolg
google -> linux command thegeekstuff

阅读全文

0 0