linux中的文本处理方法集锦

来源：互联网发布：七夕情人节html源码编辑：程序博客网时间：2024/05/22 04:53

sed awk grep
这三个工具都要用到正则表达式，把常用贴出来。

1．行的匹配
[root@mypc /]# sed -n ‘2p’ /etc/passwd 打印出第2行
[root@mypc /]# sed -n ‘1,3p’ /etc/passwd 打印出第1到第3行
[root@mypc /]# sed -n ‘$p’ /etc/passwd 打印出最后一行
[root@mypc /]# sed -n ‘/user/p' /etc/passwd 打印出含有user的行
[root@mypc /]# sed -n ‘/\$/p' /etc/passwd 打印出含有$元字符的行，$为特殊字符，表示最后一行

2．插入文本和附加文本(插入新行)
[root@mypc /]# sed -n ‘/FTP/p’ /etc/passwd 打印出有FTP的行
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
[root@mypc /]# sed ‘/FTP/ a/ 456′ /etc/passwd 在含有FTP的行后面新插入一行，内容为456
[root@mypc /]# sed ‘/FTP/ i/ 123′ /etc/passwd在含有FTP的行前面新插入一行，内容为123
[root@mypc /]# sed ‘/FTP/ i/ “123″‘ /etc/passwd在含有FTP的行前面新插入一行，内容为”123″
[root@mypc /]# sed ‘5 a/ 123′ /etc/passwd 在第5行后插入一新行，内容为123
[root@mypc /]# sed ‘5 i/ “12345″‘ /etc/passwd 在第5行前插入一新行，内容为”12345″

3．删除文本
[root@mypc /]# sed ‘1d’ /etc/passwd 删除第1行
[root@mypc /]# sed ‘1,3d’ /etc/passwd 删除第1至3行
[root@mypc /]# sed ‘/user/d’ /etc/passwd 删除带有user的行

4．替换文本,替换命令用替换模式替换指定模式，格式为：
[ a d d r e s s [，address]] s/ pattern-to-find /replacement-pattern/[g p w n]
[root@mypc /]# sed ’s/user/USER/’ /etc/passwd     将第1个user替换成USER,g表明全局替换
[root@mypc /]# sed ’s/user/USER/g’ /etc/passwd    将所有user替换成USER
[root@mypc /]# sed ’s/user/#user/’ /etc/passwd    将第1个user替换成#user,如用于屏蔽作用
[root@mypc /]# sed ’s/user//’ /etc/passwd         将第1个user替换成空
[root@mypc /]# sed ’s/user/&11111111111111/’ /etc/passwd 如果要附加或修改一个很长的字符串，可以使用（ &）命令，&命令保存发现模式以便重新调用它，然后把它放在替换字符串里面，这里是把&放前面
[root@mypc /]# sed ’s/user/11111111111111&/’ /etc/passwd 这里是将&放后面

5. 快速一行命令
下面是一些一行命令集。（[ ]表示空格，[ ]表示t a b键）

[plain] view plaincopy
‘s / / . $ / / g’ 删除以句点结尾行  
‘-e /abcd/d’ 删除包含a b c d的行  
‘s / [ ] [ ] [ ] * / [ ] / g’ 删除一个以上空格，用一个空格代替  
‘s / ^ [ ] [ ] * / / g’ 删除行首空格  
‘s / / . [ ] [ ] * / [ ] / g’ 删除句点后跟两个或更多空格，代之以一个空格  
‘/ ^ $ / d’ 删除空行  
‘s / ^ . / / g’ 删除第一个字符  
‘s /COL / ( . . . / ) / / g’ 删除紧跟C O L的后三个字母  
‘s / ^ / / / / g’ 从路径中删除第一个/  
‘s / [ ] / [ ] / / g’ 删除所有空格并用t a b键替代  
‘S / ^ [ ] / / g’ 删除行首所有t a b键  
‘s / [ ] * / / g’ 删除所有t a b键  
's/^/:/g'  在每行首部加一个：  
's/$/:/g'   在第行尾部加一个：  

如果使用s e d对文件进行过滤，最好将问题分成几步，分步执行，且边执行边测试结果。

vim

移动光标的方法

h 或向左箭头键(←)

光标向左移动一个字符

j 或向下箭头键(↓)

光标向下移动一个字符

k 或向上箭头键(↑)

光标向上移动一个字符

l 或向右箭头键(→)

光标向右移动一个字符

如果你将右手放在键盘上的话，你会发现 hjkl 是排列在一起的，因此可以使用这四个按钮来移动光标。如果想要进行多次移动的话，例如向下移动 30 行，可以使用 "30j" 或 "30↓" 的组合按键，亦即加上想要进行的次数(数字)后，按下动作即可！

[Ctrl] + [f]

屏幕『向下』移动一页，相当于 [Page Down]按键 (常用)

[Ctrl] + [b]

屏幕『向上』移动一页，相当于 [Page Up] 按键 (常用)

[Ctrl] + [d]

屏幕『向下』移动半页

[Ctrl] + [u]

屏幕『向上』移动半页

光标移动到非空格符的下一列

光标移动到非空格符的上一列

n<space>

那个 n 表示『数字』，例如 20 。按下数字后再按空格键，光标会向右移动这一行的 n 个字符。例如 20<space> 则光标会向后面移动 20 个字符距离。

0 或功能键[Home]

这是数字『 0 』：移动到这一行的最前面字符处 (常用)

$ 或功能键[End]

移动到这一行的最后面字符处(常用)

光标移动到这个屏幕的最上方那一行的第一个字符

光标移动到这个屏幕的中央那一行的第一个字符

光标移动到这个屏幕的最下方那一行的第一个字符

移动到这个档案的最后一行(常用)

n 为数字。移动到这个档案的第 n 行。例如 20G 则会移动到这个档案的第 20 行(可配合 :set nu)

移动到这个档案的第一行，相当于 1G 啊！ (常用)

n<Enter>

n 为数字。光标向下移动 n 行(常用)

搜寻与取代

/word

向光标之下寻找一个名称为 word 的字符串。例如要在档案内搜寻 vbird 这个字符串，就输入 /vbird 即可！ (常用)

?word

向光标之上寻找一个字符串名称为 word 的字符串。

这个 n 是英文按键。代表『重复前一个搜寻的动作』。举例来说，如果刚刚我们执行 /vbird 去向下搜寻 vbird 这个字符串，则按下 n 后，会向下继续搜寻下一个名称为 vbird 的字符串。如果是执行 ?vbird 的话，那么按下 n 则会向上继续搜寻名称为 vbird 的字符串！

这个 N 是英文按键。与 n 刚好相反，为『反向』进行前一个搜寻动作。例如 /vbird 后，按下 N 则表示『向上』搜寻 vbird 。

使用 /word 配合 n 及 N 是非常有帮助的！可以让你重复的找到一些你搜寻的关键词！

:n1,n2s/word1/word2/g

n1 与 n2 为数字。在第 n1 与 n2 行之间寻找 word1 这个字符串，并将该字符串取代为 word2 ！举例来说，在 100 到 200 行之间搜寻 vbird 并取代为 VBIRD 则：
『:100,200s/vbird/VBIRD/g』。(常用)

:1,$s/word1/word2/g

从第一行到最后一行寻找 word1 字符串，并将该字符串取代为 word2 ！(常用)

:1,$s/word1/word2/gc

从第一行到最后一行寻找 word1 字符串，并将该字符串取代为 word2 ！且在取代前显示提示字符给用户确认 (confirm) 是否需要取代！(常用)

删除、复制与贴上

x, X

在一行字当中，x 为向后删除一个字符 (相当于 [del] 按键)， X 为向前删除一个字符(相当于 [backspace] 亦即是退格键) (常用)

n 为数字，连续向后删除 n 个字符。举例来说，我要连续删除 10 个字符，『10x』。

删除游标所在的那一整列(常用)

ndd

n 为数字。删除光标所在的向下 n 列，例如 20dd 则是删除 20 列 (常用)

d1G

删除光标所在到第一行的所有数据

删除光标所在到最后一行的所有数据

删除游标所在处，到该行的最后一个字符

那个是数字的 0 ，删除游标所在处，到该行的最前面一个字符

复制游标所在的那一行(常用)

nyy

n 为数字。复制光标所在的向下 n 列，例如 20yy 则是复制 20 列(常用)

y1G

复制游标所在列到第一列的所有数据

复制游标所在列到最后一列的所有数据

复制光标所在的那个字符到该行行首的所有数据

复制光标所在的那个字符到该行行尾的所有数据

p, P

p 为将已复制的数据在光标下一行贴上，P 则为贴在游标上一行！举例来说，我目前光标在第 20 行，且已经复制了 10 行数据。则按下 p 后，那 10 行数据会贴在原本的 20 行之后，亦即由 21 行开始贴。但如果是按下 P 呢？那么原本的第 20 行会被推到变成 30 行。 (常用)

将光标所在列与下一列的数据结合成同一列

重复删除多个数据，例如向下删除 10 行，[ 10cj ]

复原前一个动作。(常用)

[Ctrl]+r

重做上一个动作。(常用)

这个 u 与 [Ctrl]+r 是很常用的指令！一个是复原，另一个则是重做一次～利用这两个功能按键，你的编辑，嘿嘿！很快乐的啦！

不要怀疑！这就是小数点！意思是重复前一个动作的意思。如果你想要重复删除、重复贴上等等动作，按下小数点『.』就好了！ (常用)

进入插入或取代的编辑模式

i, I

进入插入模式(Insert mode)：
i 为『从目前光标所在处插入』， I 为『在目前所在行的第一个非空格符处开始插入』。 (常用)

a, A

进入插入模式(Insert mode)：
a 为『从目前光标所在的下一个字符处开始插入』， A 为『从光标所在行的最后一个字符处开始插入』。(常用)

o, O

进入插入模式(Insert mode)：
这是英文字母 o 的大小写。o 为『在目前光标所在的下一行处插入新的一行』； O 为在目前光标所在处的上一行插入新的一行！(常用)

r, R

进入取代模式(Replace mode)：
r 只会取代光标所在的那一个字符一次；R会一直取代光标所在的文字，直到按下 ESC 为止；(常用)

上面这些按键中，在 vi 画面的左下角处会出现『--INSERT--』或『--REPLACE--』的字样。由名称就知道该动作了吧！！特别注意的是，我们上面也提过了，你想要在档案里面输入字符时，一定要在左下角处看到 INSERT 或 REPLACE 才能输入喔！

[Esc]

退出编辑模式，回到一般模式中(常用)

指令列的储存、离开等指令

将编辑的数据写入硬盘档案中(常用)

:w!

若文件属性为『只读』时，强制写入该档案。不过，到底能不能写入，还是跟你对该档案的档案权限有关啊！

离开 vi (常用)

:q!

若曾修改过档案，又不想储存，使用 ! 为强制离开不储存档案。

注意一下啊，那个惊叹号 (!) 在 vi 当中，常常具有『强制』的意思～

:wq

储存后离开，若为 :wq! 则为强制储存后离开 (常用)

这是大写的 Z 喔！若档案没有更动，则不储存离开，若档案已经被更动过，则储存后离开！

:w [filename]

将编辑的数据储存成另一个档案（类似另存新档）

:r [filename]

在编辑的数据中，读入另一个档案的数据。亦即将『filename』这个档案内容加到游标所在行后面

:n1,n2 w [filename]

将 n1 到 n2 的内容储存成 filename 这个档案。

:! command

暂时离开 vi 到指令列模式下执行 command 的显示结果！例如 :! ls /home 即可在 vi 当中察看 /home 底下以 ls 输出的档案信息！

vim 环境的变更

:set nu

显示行号，设定之后，会在每一行的前缀显示该行的行号

:set nonu

与 set nu 相反，为取消行号！

多窗口情况下的按键功能

:sp [filename]

开启一个新窗口，如果有加 filename，表示在新窗口开启一个新档案，否则表示两个窗口为同一个档案内容(同步显示)。

[ctrl]+w+ j
[ctrl]+w+↓

按键的按法是：先按下 [ctrl] 不放，再按下 w 后放开所有的按键，然后再按下 j (或向下箭头键)，则光标可移动到下方的窗口。

[ctrl]+w+ k
[ctrl]+w+↑

同上，不过光标移动到上面的窗口。

[ctrl]+w+ q

其实就是 :q 结束离开啦！举例来说，如果我想要结束下方的窗口，那么利用 [ctrl]+w+↓ 移动到下方窗口后，按下 :q 即可离开，也可以按下 [ctrl]+w+q

vim 的环境设定参数

:set nu
:set nonu

就是设定与取消行号啊！

:set hlsearch
:set nohlsearch

hlsearch 就是 high light search(高亮度搜寻)。这个就是设定是否将搜寻的字符串反白的设定值。默认值是 hlsearch

:set autoindent
:set noautoindent

是否自动缩排？autoindent 就是自动缩排。

:set backup

是否自动储存备份档？一般是 nobackup 的，如果设定 backup 的话，那么当你更动任何一个档案时，则源文件会被另存成一个档名为 filename~ 的档案。举例来说，我们编辑 hosts ，设定 :set backup ，那么当更动 hosts 时，在同目录下，就会产生 hosts~ 文件名的档案，记录原始的 hosts 档案内容

:set ruler

还记得我们提到的右下角的一些状态栏说明吗？这个 ruler 就是在显示或不显示该设定值的啦！

:set showmode

这个则是，是否要显示 --INSERT-- 之类的字眼在左下角的状态栏。

:set backspace=(012)

一般来说，如果我们按下 i 进入编辑模式后，可以利用退格键 (backspace) 来删除任意字符的。但是，某些 distribution 则不许如此。此时，我们就可以透过 backspace 来设定啰～当 backspace 为 2 时，就是可以删除任意值；0 或 1 时，仅可删除刚刚输入的字符，而无法删除原本就已经存在的文字了！

:set all

显示目前所有的环境参数设定值。

:set

显示与系统默认值不同的设定参数，一般来说就是你有自行变动过的设定参数啦！

:syntax on
:syntax off

是否依据程序相关语法显示不同颜色？举例来说，在编辑一个纯文本档时，如果开头是以 # 开始，那么该行就会变成蓝色。如果你懂得写程序，那么这个 :syntax on 还会主动的帮你除错呢！但是，如果你仅是编写纯文本档案，要避免颜色对你的屏幕产生的干扰，则可以取消这个设定。

:set bg=dark
:set bg=light

可用以显示不同的颜色色调，预设是『 light 』。如果你常常发现批注的字体深蓝色实在很不容易看，那么这里可以设定为 dark 喔！试看看，会有不同的样式呢！

妙招1 交换等号两边的内容。

我们在写代码的时候难免会遇到左值和右值交换，若是这样的语句多达百条，痛苦万分。

sed 's//(.*/) = /(.*/);//2 = /1;/' 注意等号左右各有一个空格，当然这要取决于你的赋值语句。

另一篇：

1、grep命令：查找文件里符合条件的字符串
一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来
语法格式: grep [options]
-i：ignore-case 忽略大小写差别
-c：count 只打印匹配的总行数，不显示匹配的内容信息
-n：line-number 在匹配的行前面打印行号
-v：revert-match 反检索，只显示不匹配的行
-r：recursion递归地，读取每个文件夹下的所有档案
-l ：不显示平常一般的输出结果，只显示符合的文件名称

Bash常用文本处理工具用法

2、awk命令：一个强大的文本处理工具，逐行扫描，从第一行到最后一行
使用语法：awk 'pattern{action}' filename
pattern：正则表达式
action：输出语法
你可以省略pattern和 action之一，但不能两者同时省略，当省略pattern时没有样式匹配，表示对所有行（记录）均执行操作，省略action时执行缺省的操作——在标准输出上显示。
语法格式：awk [ -F re] [parameter...]
-F re：允许awk更改其字段分隔符
parameter: 该参数帮助为不同的变量赋值
-v：定义变量
-f：指定脚本文件
三种调用方式：
1、awk命令行
2、使用-f选项调用awk程序，例如：awk -f progfile file ，其中progfile是指定一个文本文件
3、利用命令解释器调用awk程序，需要在awk脚本声明调用方式，例如：#！/bin/awk -f
命令行方式使用内容过滤：
[root@test ~]# awk '/root/' /etc/passwd
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
#显示分隔符指定列（1列），分隔符默认是空格，$1是显示分隔符前面一列

Bash常用文本处理工具用法

#显示test文件中匹配123的行
[root@test ~]# awk '/123/ {print $1}' test
#显示所有以a或f开头的行

Bash常用文本处理工具用法

4、sed命令：一种在线编辑器，它一次处理一行内容
处理时，把当前处理的行存储在临时缓冲区中，称为'模式空间'（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。
常用参数：
i 插入
s 替换
e 多点编辑
d 删除
a 追加到行后面
g 全部替换，无g只替换每行第一个
q 退出
#将所有包含aaa替换为jjj
sed 's/aaa/jjj/' test
#把这行注释去掉，替换文本
sed -i 's/#ServerName www.example.com:80/ ServerName 192.168.0.202:80/g'
将所有包含/var/www/html/替换为/opt/web/，分隔符'/'可以用别的符号代替，比如 ',' '_' '|' 等
sed -i s/\/var\/www\/html/\/opt\/web/' /etc/httpd/conf/httpd.conf
等同于:
sed -i 's_/var/www/html/_/opt/web/_' /etc/httpd/conf/httpd.conf
#插入一行到391行，包括特殊符号'/'
sed -i '391 s/^/AddType application\/x-httpd-php .php.html/' httpd.conf
#只打印第一行数据
sed -n '1p' /etc/passwd
#打印包含root的行，禁止默认输出
sed -n '/root/p' /etc/passwd
#删除13行
sed -i '13d' /etc/passwd
#删除13行到最后一行
sed -i '13,$d' /etc/passwd
#将包含uucp的行删除
sed -i '/uucp/d' /etc/passwd
5、find命令：查找具有某一特征的文件(例如文件权限、文件属主、文件长度、文件类型等
用法：find [path] [options] [条件]
Path：查找路径
Options：选项
例如：
-name：按照文件名查找文件
-mtime：按照文件的更改时间来查找文件，后跟-n、+n来表示多少天内和以前
-user：按照文件属主来查找文件
-group：按照文件所属的组来查找文件
-type：查找某一个类型的文件，诸如：b（块设备）、d（目录）、l（符号链接）、f（普通文件）
-size：根据文件大小来查找文件
#在根目录查找更改时间在5日以内的文件
find /tmp -mtime -5
#在/var目录下查找更改时间在3日以前的文件
find /var/ -mtime +3
#查找系统中所有文件长度为0的普通文件，并列出他们的完整路径
find / -type f -size 0 -exec ls -l {} \;
#查找/var/log目录中更改时间在7日以前的普通文件，并删除他们
find /var/log/ -type f -mtime +7 -exec rm {} \;
#找出用户test拥有的文件，并将他们拷贝到/root/test目录中
find / -user test -exec cp {} /root/test \;
6、sort命令：对文件中的各行进行排序
sort命令将逐行对文件中的内容进行排序，如果两行的首字符相同，该命令将继续比较这两行的下一字符，如果还相同，将继续进行比较.
格式：sort [选项] 文件
主要选项：
-r：倒序排序，默认是升序。
-n：按数值大小进行排序
-k：KeyDefinition 指定排序关键字。
-t：Character 指定 Character 作为字段分隔符
-d：使用字典顺序排序。比较中仅考虑字母、数字和空格
-f：将小写字母与大写字母同等对待
-u：去掉重复的行，使文件中的每一行唯一
7、uniq命令：删除文件中的重复行
文件经过处理后在它的输出文件中可能会出现重复的行。例如，使用cat命令将两个文件合并后，再使用sort命令进行排序，就可能出现重复行。这时可以使用uniq命令将这些重复行从输出文件中删除，只留下每条记录的唯一样本。
格式：uniq [选项] 文件
主要选项：
-c：显示行号
-d：只显示重复行。
-u：只显示文件中不重复的各行。
8、cut命令：显示文件中每行的指定内容
格式：cut -d 分隔字符 [-cf] fields
-d：后面接的是分隔字符，默认情况下为Tab；
-c：后面接的是第几个字符
-f：后面接的是第几个区块
#列出/etc/passwd文件中的所有用户，按照升序排列
cut -d : -f 1 /etc/passwd | sort
#显示/etc/passwd文件下uid为0的用户名以及uid。
cut -d : -f 1,3/etc/passwd|grep ':0$'
正则表达式'$'表示以字符结尾，'^'表示以某字符开始。
9、tr命令：从标准输入删除或替换字符，可以看为sed简化软件
常用选项的tr命令格式为：
-d 删除字符串1中所有输入字符。
-s 删除所有重复出现字符序列，只保留第一个。
#将小写字符转换成大写
tr 'a-z' 'A-Z' < file
#将文件中删除所有空字符
tr –d ‘\0’< file
#删除文件中shell字符
cat test | tr -d 'shell'
#将文件中所有abc字符替换efg并另存为新文件
cat test | tr 'abc' 'efg' >new file
10、其他文本处理命令
cat：从头开始显示内容，并将所有内容输出
常用参数，-n显示输出的行数编号
tac：从最后一行倒序显示内容，并将所有内容输出
head：默认显示头10行，-n指定显示多少行数
tail：默认显示最后10行，-n指定显示多少行数，-f实时显示内容
more：分屏查看文本文件
less：和more类似，但可以往前翻页
nl：显示时输出行号
wc：计算文件的字节数、单词数和行数
常用参数：-c统计字节数，-l统计行数，-m统计字符数

其他

内容目录：find 文件查找
grep 文本搜索
xargs 命令行参数转换
sort 排序
uniq 消除重复行
用tr进行转换
cut 按列切分文本
paste 按列拼接文本
wc 统计行和字符的工具
sed 文本替换利器
awk 数据流处理工具
迭代文件中的行、单词和字符

本文将介绍Linux下使用Shell处理文本时最常用的工具：
find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk；
提供的例子和参数都是最常用和最为实用的；
我对shell脚本使用的原则是命令单行书写，尽量不要超过2行；
如果有更为复杂的任务需求，还是考虑python吧；

find 文件查找

查找txt和pdf文件

  find . \( -name "*.txt" -o -name "*.pdf" \) -print

正则方式查找.txt和pdf
```
  find . -regex  ".*$\.txt|\.pdf$$"
```
-iregex：忽略大小写的正则
否定参数
查找所有非txt文本
```
   find . ! -name "*.txt" -print
```
指定搜索深度
打印出当前目录的文件（深度为1）
```
  find . -maxdepth 1 -type f  
```

定制搜索

按类型搜索：

  find . -type d -print  //只列出所有目录

-type f 文件 / l 符号链接

按时间搜索：
-atime 访问时间 (单位是天，分钟单位则是-amin，以下类似）
-mtime 修改时间（内容被修改）
-ctime 变化时间（元数据或权限变化）
最近7天被访问过的所有文件：
```
  find . -atime 7 -type f -print
```

按大小搜索：
w字 k M G
寻找大于2k的文件

  find . -type f -size +2k

按权限查找：

  find . -type f -perm 644 -print //找具有可执行权限的所有文件

按用户查找：

  find . -type f -user weber -print// 找用户weber所拥有的文件

找到后的后续动作

删除：
删除当前目录下所有的swp文件：
```
  find . -type f -name "*.swp" -delete
```
执行动作（强大的exec）
```
  find . -type f -user root -exec chown weber {} \; //将当前目录下的所有权变更为weber
```
注：{}是一个特殊的字符串，对于每一个匹配的文件，{}会被替换成相应的文件名；
eg：将找到的文件全都copy到另一个目录：
```
  find . -type f -mtime +10 -name "*.txt" -exec cp {} OLD \;
```
结合多个命令
tips: 如果需要后续执行多个命令，可以将多个命令写成一个脚本。然后 -exec 调用时执行脚本即可；
```
  -exec ./commands.sh {} \;
```

-print的定界符

默认使用'\n'作为文件的定界符；
-print0 使用'\0'作为文件的定界符，这样就可以搜索包含空格的文件；

grep 文本搜索

grep match_patten file // 默认访问匹配行

常用参数
-o 只输出匹配的文本行 VS -v 只输出没有匹配的文本行
-c 统计文件中包含文本的次数
```
  grep -c "text" filename
```
-n 打印匹配的行号
-i 搜索时忽略大小写
-l 只打印文件名
在多级目录中对文本递归搜索(程序员搜代码的最爱）：
```
  grep "class" . -R -n
```
匹配多个模式
```
  grep -e "class" -e "vitural" file
```
grep输出以\0作为结尾符的文件名：（-z）
```
  grep "test" file* -lZ| xargs -0 rm
```

xargs 命令行参数转换

xargs 能够将输入数据转化为特定命令的命令行参数；这样，可以配合很多命令来组合使用。比如grep，比如find；

将多行输出转化为单行输出
cat file.txt| xargs
\n 是多行文本间的定界符
将单行转化为多行输出
cat single.txt | xargs -n 3
-n：指定每行显示的字段数

xargs参数说明

-d 定义定界符（默认为空格多行的定界符为 \n）
-n 指定输出为多行
-I {} 指定替换字符串，这个字符串在xargs扩展时会被替换掉,用于待执行的命令需要多个参数时
eg：

cat file.txt | xargs -I {} ./command.sh -p {} -1

-0：指定\0为输入定界符
eg：统计程序行数

find source_dir/ -type f -name "*.cpp" -print0 |xargs -0 wc -l

sort 排序

字段说明：
-n 按数字进行排序 VS -d 按字典序进行排序
-r 逆序排序
-k N 指定按第N列排序
eg：

sort -nrk 1 data.txtsort -bd data // 忽略像空格之类的前导空白字符

uniq 消除重复行

消除重复行
```
  sort unsort.txt | uniq 
```
统计各行在文件中出现的次数
```
  sort unsort.txt | uniq -c
```
找出重复行
```
  sort unsort.txt | uniq -d
```
可指定每行中需要比较的重复内容：-s 开始位置 -w 比较字符数

用tr进行转换

通用用法

  echo 12345 | tr '0-9' '9876543210' //加解密转换，替换对应字符  cat text| tr '\t' ' '  //制表符转空格

tr删除字符

  cat file | tr -d '0-9' // 删除所有数字

-c 求补集

  cat file | tr -c '0-9' //获取文件中所有数字  cat file | tr -d -c '0-9 \n'  //删除非数字数据

tr压缩字符
tr -s 压缩文本中出现的重复字符；最常用于压缩多余的空格
```
  cat file | tr -s ' '
```
字符类
tr中可用各种字符类：
alnum：字母和数字
alpha：字母
digit：数字
space：空白字符
lower：小写
upper：大写
cntrl：控制（非可打印）字符
print：可打印字符
使用方法：tr [:class:] [:class:]
```
  eg: tr '[:lower:]' '[:upper:]'
```

cut 按列切分文本

截取文件的第2列和第4列：
```
  cut -f2,4 filename
```
去文件除第3列的所有列：
```
  cut -f3 --complement filename
```
-d 指定定界符：
```
  cat -f2 -d";" filename
```
cut 取的范围
N- 第N个字段到结尾
-M 第1个字段为M
N-M N到M个字段
cut 取的单位
-b 以字节为单位
-c 以字符为单位
-f 以字段为单位（使用定界符）

eg:

  cut -c1-5 file //打印第一到5个字符  cut -c-2 file  //打印前2个字符

paste 按列拼接文本

将两个文本按列拼接到一起;

cat file112cat file2colinbookpaste file1 file21 colin2 book

默认的定界符是制表符，可以用-d指明定界符
paste file1 file2 -d ","
1,colin
2,book

wc 统计行和字符的工具

wc -l file // 统计行数
wc -w file // 统计单词数
wc -c file // 统计字符数

sed 文本替换利器

首处替换

  seg 's/text/replace_text/' file   //替换每一行的第一处匹配的text

全局替换
```
   seg 's/text/replace_text/g' file
```
默认替换后，输出替换后的内容，如果需要直接替换原文件,使用-i：
```
  seg -i 's/text/repalce_text/g' file
```
移除空白行：
```
  sed '/^$/d' file
```

变量转换
已匹配的字符串通过标记&来引用.

echo this is en example | seg 's/\w+/[&]/g'$>[this]  [is] [en] [example]

子串匹配标记
第一个匹配的括号内容使用标记 \1 来引用
```
  sed 's/hello$[0-9]$/\1/'
```
双引号求值
sed通常用单引号来引用；也可使用双引号，使用双引号后，双引号会对表达式求值：
```
  sed 's/$var/HLLOE/' 
```
当使用双引号时，我们可以在sed样式和替换字符串中指定变量；
```
eg:p=pattenr=replacedecho "line con a patten" | sed "s/$p/$r/g"$>line con a replaced
```
其它示例
字符串插入字符：将文本中每行内容（PEKSHA）转换为 PEK/SHA
```
  sed 's/^.\{3\}/&\//g' file
```

awk 数据流处理工具

awk脚本结构
awk ' BEGIN{ statements } statements2 END{ statements } '
工作方式
1.执行begin中语句块；
2.从文件或stdin中读入一行，然后执行statements2，重复这个过程，直到文件全部被读取完毕；
3.执行end语句块；

print 打印当前行

使用不带参数的print时，会打印当前行;

  echo -e "line1\nline2" | awk 'BEGIN{print "start"} {print } END{ print "End" }'

print 以逗号分割时，参数以空格定界;

echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3"; \print var1, var2 , var3; }'$>v1 V2 v3

使用-拼接符的方式（""作为拼接符）;

echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3"; \print var1"-"var2"-"var3; }'$>v1-V2-v3

特殊变量： NR NF $0 $1 $2

NR:表示记录数量，在执行过程中对应当前行号；
NF:表示字段数量，在执行过程总对应当前行的字段数；
$0:这个变量包含执行过程中当前行的文本内容；
$1:第一个字段的文本内容；
$2:第二个字段的文本内容；

echo -e "line1 f2 f3\n line2 \n line 3" | awk '{print NR":"$0"-"$1"-"$2}'

打印每一行的第二和第三个字段：
```
  awk '{print $2, $3}' file
```
统计文件的行数：
```
  awk ' END {print NR}' file
```

累加每一行的第一个字段：

  echo -e "1\n 2\n 3\n 4\n" | awk 'BEGIN{num = 0 ;  print "begin";} {sum += $1;} END {print "=="; print sum }'

传递外部变量

var=1000echo | awk '{print vara}' vara=$var #  输入来自stdinawk '{print vara}' vara=$var file # 输入来自文件

用样式对awk处理的行进行过滤

awk 'NR < 5' #行号小于5
awk 'NR==1,NR==4 {print}' file #行号等于1和4的打印出来
awk '/linux/' #包含linux文本的行（可以用正则表达式来指定，超级强大）
awk '!/linux/' #不包含linux文本的行

设置定界符

使用-F来设置定界符（默认为空格）
awk -F: '{print $NF}' /etc/passwd

读取命令输出

使用getline，将外部shell命令的输出读入到变量cmdout中；

echo | awk '{"grep root /etc/passwd" | getline cmdout; print cmdout }'

在awk中使用循环

for(i=0;i<10;i++){print $i;}
for(i in array){print array[i];}

eg:
以逆序的形式打印行：(tac命令的实现）

seq 9| \awk '{lifo[NR] = $0; lno=NR} \END{ for(;lno>-1;lno--){print lifo[lno];}} '

awk实现head、tail命令

head:
```
  awk 'NR<=10{print}' filename
```

tail:

  awk '{buffer[NR%10] = $0;} END{for(i=0;i<11;i++){ \  print buffer[i %10]} } ' filename

打印指定列

awk方式实现：
```
  ls -lrt | awk '{print $6}'
```
cut方式实现
```
  ls -lrt | cut -f6
```

打印指定文本区域

确定行号
```
  seq 100| awk 'NR==4,NR==6{print}'
```

确定文本
打印处于start_pattern 和end_pattern之间的文本；

  awk '/start_pattern/, /end_pattern/' filename

eg:

seq 100 | awk '/13/,/15/'cat /etc/passwd| awk '/mai.*mail/,/news.*news/'

awk常用内建函数

index(string,search_string):返回search_string在string中出现的位置
sub(regex,replacement_str,string):将正则匹配到的第一处内容替换为replacement_str;
match(regex,string):检查正则表达式是否能够匹配字符串；
length(string)：返回字符串长度

echo | awk '{"grep root /etc/passwd" | getline cmdout; print length(cmdout) }'

printf 类似c语言中的printf，对输出进行格式化
eg：

seq 10 | awk '{printf "->%4s\n", $1}'

迭代文件中的行、单词和字符

1. 迭代文件中的每一行

while 循环法

while read line;doecho $line;done < file.txt改成子shell:cat file.txt | (while read line;do echo $line;done)

awk法：
cat file.txt| awk '{print}'

2.迭代一行中的每一个单词

for word in $line;do echo $word;done

3. 迭代每一个字符

${string:start_pos:num_of_chars}：从字符串中提取一个字符；(bash文本切片）
${#word}:返回变量word的长度

for((i=0;i<${#word};i++))doecho ${word:i:1);done

本文为《linux Shell脚本攻略》的读书笔记，文中主要内容和示例来自于
《linux Shell脚本攻略》；

2 0