Linux命令之文本处理（一）

来源：互联网发布：优酷网络大电影合作编辑：程序博客网时间：2024/05/21 17:12

wc命令

用来统计文件的字符数、行数、单词数等，很常用的命令（面试的时候竟然没想起来这个命令，我是有多么挫。。。）
使用格式为：wc options file-lists,若file-lists为空或“-”，则表示从标准输入读入数据；options为空的时候，默认输出的数据依次是行数、单词数、字节数，如下：

    m@meng:~$ wc examples.desktop    240  569 8980 examples.desktop

下面介绍各个选项：

-c：只显示字节数，注意是字节而不是字符，不同语言的一个字符占据的字节数是不同的，一个英文字母一般只占一个字节。

        m@meng:~$ cat new        a        m@meng:~$ wc -c new         2 new

文件new中只有一个字母a，但是统计结果却是2个字节，这是因为，wc把文件末尾的换行符也统计在内，这个换行符也是挺有趣的，改天我会写一篇文章分析一下。

-m：只显示字符数，用汉语实验一下：

        m@meng:~$ cat new         你好        m@meng:~$ wc -c new         7 new        m@meng:~$ wc -m new         3 new

算上换行符，的确只有三个字符；但是占用的字节数却是7，说明一个汉字占用3个字节。

-l：只显示行数
-L：显示最长行的长度，如下：

    m@meng:~$ cat new     baa    m@meng:~$ wc -L new     3 new

由此可见，行的长度不包含行尾换行。

-w：显示单词数，准确的含义是： A word is a non-zero-length sequence of characters delimited by white space.

sort命令

看来排序是计算机的一个刚性需求，无论哪个领域似乎都需要排序。sort用来对文件的行进行排序，输出排好序的结果，不改变源文件。
sort进行排序的单位是行，它会从每行的第一个字母开始比较，按照第一个字母的ASCII值从小到大排列行；若某两行的第一个字母相同，则比较它们的第二个字母，以此类推。但是，这种排序会受到locale环境变量的影响，不一定出现想要的结果，如下：

    m@meng:~$ cat new     apple 3    Apple 7    pear 6    pear  4    banana 1    orange 8    m@meng:~$ sort new     apple 3    Apple 7    banana 1    orange 8    pear  4    pear 6

按照ASCII的话，Apple应该排在第一行，但是它却出现在第二行，这是因为当前的locale是zh_CN,修改后如下：

    m@meng:~$ export LC_ALL=C    m@meng:~$ sort new     Apple 7    apple 3    banana 1    orange 8    pear  4    pear 6

注意，修改成en_US是不管用的，改成C是因为 manual中有句话“The locale specified by the environment affects sort order. Set LC_ALL=C to get the traditional sort order that uses native byte values”，现在按照想要的方式排序了。

-t与-k选项
sort命令更强大或更常用的功能是对格式化的行进行排序，格式化是指每行由某个分隔符分成了有规律的几段，这样以来就可以指定按照哪个段来排序，而不是像普通的排序那样从每行的开头逐个字符比较。如果每行的数据是不规律的，那么按字段排序是无效的。
-t用来指定分隔符，-k用来指定哪个字段，字段从1开始计数。例如：

      m@meng:~$ sort -t " " -k 2 new       banana 1      apple 3      pear  4      pear 6      Apple 7      orange 8

默认的分隔符是那些空白字符，如空格，tab等，对这些分隔符可以省略-t，所以上面的-t ” “是多次一举；分隔符只能是单个字符，所以一般不用加引号。
可以指定多个-k选项，比如-k 2 -k 3，表示先按第二个字段排序，当第二个字段相同时，按第三个字段排序。-k还有一些更复杂的用法，参见man。

-n选项
按照数字大小排序。默认情况下，文本中的数字是被当做普通字符串的，而不是真正的数字。我们现在把文本中的orange数量改成11，没有-n时如下：

      m@meng:~$ sort new -k 2      banana     1      orange     11      apple  3      pear   4      pear   6      Apple  7

orange被排在第二行，这是典型的字符串排序方式。加上-n之后，如下：

      m@meng:~$ sort new -k 2 -n      banana     1      apple  3      pear   4      pear   6      Apple  7      orange     11

-r选项：反向排序。配合-k选项时，可以直接写在字段数后面。
-o选项：相当于重定向，指定输出文件，排序结果不再输出到标准输出，而是到指定的文件中。
-c选项：并不真正排序，只是检查文件是否已经排好序。
-u选项：除去重复的行。有人认为也可以配合-k除去某字段值相同的行，我试验了一下，似乎不行，如下：

        m@meng:~$ sort new -k 1 -u        Apple    7        apple    3        banana   1        orange   11        pear     4        pear     6

看来要两行完全相同才能除去。

-d选项：只考虑字母和空白字符，其他字符自动忽略，如# $ %等。
-f选项：忽略大小写。
-i选项：忽略非打印字符。
主要的就是这几个选项了，以后遇到其他不错的选项再补充。

0 0