Linux Shell 脚本编程(7)—文本过滤(find命令)

来源:互联网 发布:linux关机 编辑:程序博客网 时间:2024/06/03 11:18

Linux Shell 脚本编程(7)—文本过滤(find命令)

文本过滤

  • 正则表达式 —Linux Shell 脚本编程(5)—文本过滤(正则表达式)
  • grep 命令 —Linux Shell 脚本编程(6)—文本过滤(grep命令)
  • find命令 —Linux Shell 脚本编程(7)—文本过滤(find命令)
  • awk
  • sed
  • 合并与分割(sort、uniq、join、cut、paste、split)

find命令

  • find命令用来在指定目录下查找文件。任何位于参数之前的字符串都将被视为欲查找的目录名。

  • 如果使用该命令时,不设置任何参数,则find命令将在当前目录下查找子目录与文件。并且将查找到的子目录和文件全部进行显示。

  • 遍历大文件系统时,要放在后台执行

语法格式

  • find [path] -[options] [-print -exec -ok …]
    • path:所查找的目录路径。.来表示当前目录,用/来表示系统根目录。
    • -print: find命令将匹配的文件输出到标准输出。
    • -exec: find命令对匹配的文件执行该参数所给出的shell命令。相应命令的形式为’command’ { } \;,注意{ }和\;之间的空格。
    • -ok: 和-exec的作用相同,只不过以一种更为安全的模式来执行该参数所给出的shell命令,在执行每一个命令之前,都会给出提示,让用户来确定是否执行。

选项[options]

-amin<分钟>:查找在指定时间曾被存取过的文件或目录,单位以分钟计算;-anewer<参考文件或目录>:查找其存取时间较指定文件或目录的存取时间更接近现在的文件或目录;-atime<24小时数>:查找在指定时间曾被存取过的文件或目录,单位以24小时计算;-cmin<分钟>:查找在指定时间之时被更改过的文件或目录;-cnewer<参考文件或目录>查找其更改时间较指定文件或目录的更改时间更接近现在的文件或目录;-ctime<24小时数>:查找在指定时间之时被更改的文件或目录,单位以24小时计算;-daystart:从本日开始计算时间;-depth:从指定目录下最深层的子目录开始查找;-expty:寻找文件大小为0 Byte的文件,或目录下没有任何子目录或文件的空目录;-exec<执行指令>:#假设find指令的回传值为True,就执行该指令;-false:将find指令的回传值皆设为False-fls<列表文件>:此参数的效果和指定“-ls”参数类似,但会把结果保存为指定的列表文件;-follow:排除符号连接;-fprint<列表文件>:此参数的效果和指定“-print”参数类似,但会把结果保存成指定的列表文件;-fprint0<列表文件>:此参数的效果和指定“-print0”参数类似,但会把结果保存成指定的列表文件;-fprintf<列表文件><输出格式>:此参数的效果和指定“-printf”参数类似,但会把结果保存成指定的列表文件;-fstype<文件系统类型>:只寻找该文件系统类型下的文件或目录;-gid<群组识别码>:查找符合指定之群组识别码的文件或目录;-group<群组名称>:#查找符合指定之群组名称的文件或目录;-help或——help:在线帮助;-ilname<范本样式>:#此参数的效果和指定“-lname”参数类似,但忽略字符大小写的差别;-iname<范本样式>:此参数的效果和指定“-name”参数类似,但忽略字符大小写的差别;-inum<inode编号>:查找符合指定的inode编号的文件或目录;-ipath<范本样式>:此参数的效果和指定“-path”参数类似,但忽略字符大小写的差别;-iregex<范本样式>:此参数的效果和指定“-regexe”参数类似,但忽略字符大小写的差别;-links<连接数目>:查找符合指定的硬连接数目的文件或目录;-iname<范本样式>:指定字符串作为寻找符号连接的范本样式;-ls:假设find指令的回传值为Ture,就将文件或目录名称列出到标准输出;-maxdepth<目录层级>:设置最大目录层级;-mindepth<目录层级>:设置最小目录层级;-mmin<分钟>:查找在指定时间曾被更改过的文件或目录,单位以分钟计算;-mount:此参数的效果和指定“-xdev”相同;-mtime<24小时数>:查找在指定时间曾被更改过的文件或目录,单位以24小时计算;-name<范本样式>:指定字符串作为寻找文件或目录的范本样式;-newer<参考文件或目录>:查找其更改时间较指定文件或目录的更改时间更接近现在的文件或目录;-nogroup:找出不属于本地主机群组识别码的文件或目录;-noleaf:不去考虑目录至少需拥有两个硬连接存在;-nouser:找出不属于本地主机用户识别码的文件或目录;-ok<执行指令>:此参数的效果和指定“-exec”类似,但在执行指令之前会先询问用户,若回答“y”或“Y”,则放弃执行命令;-path<范本样式>:指定字符串作为寻找目录的范本样式;-perm<权限数值>:查找符合指定的权限数值的文件或目录;-print:假设find指令的回传值为Ture,就将文件或目录名称列出到标准输出。格式为每列一个名称,每个名称前皆有“./”字符串;-print0:假设find指令的回传值为Ture,就将文件或目录名称列出到标准输出。格式为全部的名称皆在同一行;-printf<输出格式>:假设find指令的回传值为Ture,就将文件或目录名称列出到标准输出。格式可以自行指定;-prune:不寻找字符串作为寻找文件或目录的范本样式;-regex<范本样式>:指定字符串作为寻找文件或目录的范本样式;-size<文件大小>:查找符合指定的文件大小的文件;-true:将find指令的回传值皆设为True-typ<文件类型>:只寻找符合指定的文件类型的文件;-uid<用户识别码>:查找符合指定的用户识别码的文件或目录;-used<日数>:查找文件或目录被更改之后在指定时间曾被存取过的文件或目录,单位以日计算;-user<拥有者名称>:查找符和指定的拥有者名称的文件或目录;-version或——version:显示版本信息;-xdev:将范围局限在先行的文件系统中;-xtype<文件类型>:此参数的效果和指定“-type”参数类似,差别在于它针对符号连接检查。

1. -name 按照文件名查找文件

  • 从根目录 $ H O M E中查找文件名符合* . t x t的文件
$ find ~ -name "*.txt" -print#用~作为path参数,波浪号~代表了你的$HOME目录。$ find ./home/jianliu -name "*.txt" -printjianliu@ubuntu:~$ find ~ -name "*.txt" -print/home/jianliu/num1.txt/home/jianliu/mylog.txt/home/jianliu/partation.txt/home/jianliu/.config/libreoffice/4/user/uno_packages/cache/log.txt/home/jianliu/aa/names.txt/home/jianliu/aa/student_data.txt/home/jianliu/aa/test.txt/home/jianliu/aa/test0.txt/home/jianliu/num2.txt/home/jianliu/test0.txt
  • 列出当前目录及子目录下所有文件和文件夹
$ find . -printjianliu@ubuntu:~/bb$ find . -print../b4.c./b1.c./4.c./aa./aa/a1.c./1.c./b3.c./2.c./5.c./1.c~
  • 在/ e t c目录中查找文件名以h o s t开头的文件
jianliu@ubuntu:~/bb$ find /etc -name "host*" -print/etc/init/hostname.conffind: `/etc/polkit-1/localauthority': Permission denied/etc/host.conf/etc/hosts.deny/etc/hosts.allowfind: `/etc/ssl/private': Permission deniedfind: `/etc/cups/ssl': Permission denied/etc/hostname/etc/hosts/etc/avahi/hosts
  • -o 【查找多个文件】查找当前目录及子目录下所有以.txt和.pdf结尾的文件
jianliu@ubuntu:~/aa$ find . -name "*.txt" -o -name "*.pdf"./names.txt./p1.pdf./p2.pdf./student_data.txt./test.txt./test0.txtjianliu@ubuntu:~/aa$ find . \( -name "*.txt" -o -name "*.pdf" \)./names.txt./p1.pdf./p2.pdf./student_data.txt./test.txt./test0.txt

2. -iname 忽略文件名称的大小写

jianliu@ubuntu:~/aa$ find . -iname "test0.txt"./TEST0.txt./test0.txt

3. -path 匹配文件路径或者文件

jianliu@ubuntu:~/aa$ find -path "*bb*"./bb2./bb./bb/b4.c./bb/b1.c./bb/4.c./bb/aa./bb/aa/a1.c./bb/1.c./bb/b3.c./bb/2.c./bb/5.c./bb/1.c~./1bb./3bb4jianliu@ubuntu:~/aa$ find . -path "*bb"./bb./1bb

4. -regex 基于正则表达式匹配文件路径

jianliu@ubuntu:~/aa$ find . -regex ".*\(\.txt\|\.pdf\)$"./names.txt./p1.pdf./p2.pdf./TEST0.txt./student_data.txt./test.txt./test0.txt#5同上,忽略大小写jianliu@ubuntu:~/aa$ find . -iregex ".*\(\.txt\|\.pdf\)$"./names.txt./p3.PDF./p1.pdf./p2.pdf./test4.TXT./TEST0.txt./student_data.txt./test.txt./test0.txt

5. ! 否定参数,表示:排除指定匹配模式的文件

否定参数

#找出/home/jianliu/aa/下不是以.txt结尾的文件jianliu@ubuntu:~/aa$ find . ! -name "*.txt"../shell02.sh./p3.PDF./shell01.sh./rd_file./student_data.txt~./b4.c./p1.pdf./b1.c./test0.sh./p2.pdf./test4.TXT./a1.c./shell03.sh./test.sh./bb2./b3.c./shell11.sh

6. -type 根据文件类型进行搜索

  • 命令格式: find . -type 类型参数

  • 类型参数列表:

f    普通文件l    符号连接d    目录c    字符设备b    块设备s    套接字p    Fifo

7. 基于目录深度搜索

  • -maxdepth 向下最大深度限制
#向下最大深度限制为3jianliu@ubuntu:~/aa$ find . -maxdepth 3 -type d../bb2./bb./bb/aa./bb/aa/cc./1bb./3bb4
  • -mindepth 向下最小的目录层级
#搜索出深度距离当前目录至少2个子目录的所有文件jianliu@ubuntu:~/aa$ find . -mindepth 2 -type d./bb/aa./bb/aa/cc

8. 根据文件时间戳进行搜索

  • 格式: find path -type f 时间戳

  • UNIX/Linux文件系统每个文件都有三种时间戳:

    • 访问时间(-atime/天,-amin/分钟): 用户最近一次访问时间。
    • 修改时间(-mtime/天,-mmin/分钟):文件最后一次修改时间。
    • 变化时间(-ctime/天,-cmin/分钟): 文件数据元(例如权限等)最后一次修改时间。
#搜索最近七天内被访问过的所有文件find . -type f -atime -7#搜索恰好在七天前被访问过的所有文件find . -type f -atime 7#搜索超过七天内被访问过的所有文件find . -type f -atime +7#搜索访问时间超过10分钟的所有文件find . -type f -amin +10#找出比file.log修改时间更长的所有文件find . -type f -newer file.log

9. 根据文件大小进行匹配

  • 格式: find path -type f -size 文件大小单元
  • 文件大小单元:、
    • b —— 块(512字节)
    • c —— 字节
    • w —— 字(2字节)
    • k —— 千字节
    • M —— 兆字节
    • G —— 吉字节

#----搜索大于10KB的文件----------------------find . -type f -size +10kjianliu@ubuntu:~/aa$ find . -type f -size +2k./test.txt./app2#搜索小于10KB的文件-------------------------find . -type f -size -10k#搜索等于10KB的文件-------------------------find . -type f -size 10kjianliu@ubuntu:~/aa$ find . -type f -size 94c./hello.c

10. -delete 删除匹配文件

删除当前目录下所有.txt文件find . -type f -name "*.txt" -delete

11. -perm 根据文件权限/所有权进行匹配

#当前目录下搜索出权限为755的文件jianliu@ubuntu:~/aa$ find . -type f -perm 755./shell02.sh./shell01.sh#-rwxr-xr-x 1 jianliu jianliu  109 Oct  6 19:15 shell01.sh#-rwxr-xr-x 1 jianliu jianliu  109 Oct  6 19:15 shell02.sh#找出当前目录下权限不是644的php文件find . -type f -name "*.php" ! -perm 644

12. 根据拥有者/群组进行匹配

找出当前目录用户tom拥有的所有文件find . -type f -user tom找出当前目录用户组sunk拥有的所有文件find . -type f -group sunk

13. 借助-exec选项与其他命令结合使用

#找出当前目录下所有jianliu的文件,并把所有权更改为用户rootjianliu@ubuntu:~/aa/bb$ sudo find . -type f -user jianliu -exec chown root {} \;jianliu@ubuntu:~/aa/bb$ ls -ltotal 20-r-xr-xr-x 1 root    jianliu   80 Oct  3 05:49 1.c-rw-rw-r-- 1 root    jianliu    0 Oct  3 05:49 1.c~lrwxrwxrwx 1 jianliu jianliu    3 Oct  7 20:04 2.c -> 1.c-r-xr-xr-x 1 root    jianliu   80 Oct  3 05:49 4.c-r-xr-xr-x 1 root    jianliu   80 Oct  3 05:49 5.cdrwxrwxr-x 3 jianliu jianliu 4096 Oct 16 21:14 aa-rw-rw-r-- 1 root    jianliu   79 Oct  3 05:17 b1.clrwxrwxrwx 1 jianliu jianliu    4 Oct  7 20:04 b3.c -> b1.clrwxrwxrwx 1 jianliu jianliu    4 Oct  7 20:04 b4.c -> b1.c#上例中,{} 用于与-exec选项结合使用来匹配所有文件,然后会被替换为相应的文件名。#{} 与\之间有一个空格!!
#找出home目录下所有的.txt文件并删除jianliu@ubuntu:~/aa/bb$ find $HOME/. -name "*.txt" -ok rm {} \;< rm ... /home/jianliu/./num1.txt > ? y#上例中,-ok和-exec行为一样,不过它会给出提示,是否执行相应的操作。
#查找当前目录下所有.txt文件并把他们拼接起来写入到all.txt文件中jianliu@ubuntu:~/aa$ find . -type f -name "*.txt" -exec cat {} \;> ../all.txt
#将30天前的.log文件移动到old目录中find . -type f -mtime +30 -name "*.log" -exec cp {} old \;
#找出当前目录下所有.txt文件并以“File:文件名”的形式打印出来jianliu@ubuntu:~/aa$ find . -type f -name "*.txt" -exec printf "File: %s\n" {} \;File: ./names.txtFile: ./TEST0.txtFile: ./student_data.txtFile: ./bb/aa/cc/t4.txtFile: ./bb/all.txtFile: ./test.txtFile: ./test0.txt
#因为单行命令中-exec参数中无法使用多个命令,以下方法可以实现在-exec之后接受多条命令-exec ./text.sh {} \;#text.sh 为脚本文件!!
  • 查找当前文件系统中的所有目录并排序
$ find . -type d | sortjianliu@ubuntu:~$ find ./aa -type d | sort./aa./aa/1bb./aa/3bb4./aa/bb./aa/bb2./aa/bb/aa./aa/bb/aa/cc
  • 查找系统中所有文件长度为0的普通文件,并列出它们的完整路径
jianliu@ubuntu:~$ find ./aa -type f -size 0 -exec ls -l {} \;-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 19:50 ./aa/p3.PDF-r--r--r-- 1 jianliu jianliu 0 Oct  7 20:25 ./aa/rd_file-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 07:29 ./aa/student_data.txt~-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 19:23 ./aa/p1.pdf-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 19:23 ./aa/p2.pdf-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 19:50 ./aa/test4.TXT-rw-rw-r-- 1 jianliu jianliu 0 Oct 11 07:59 ./aa/shell03.sh-rw-rw-r-- 1 jianliu jianliu 0 Oct 11 07:59 ./aa/shell11.sh-rw-rw-r-- 1 jianliu jianliu 0 Oct 16 19:29 ./aa/TEST0.txt-rw-rw-r-- 1 root jianliu 0 Oct 16 21:14 ./aa/bb/aa/cc/t4.txt-rw-rw-r-- 1 root jianliu 0 Oct  3 05:49 ./aa/bb/1.c~-rwxrwxr-x 1 jianliu jianliu 0 Oct 10 05:26 ./aa/exe.app-rw-rw-r-- 1 jianliu jianliu 0 Oct  7 23:16 ./aa/efile-rwxrwxr-x 1 jianliu jianliu 0 Oct 10 05:49 ./aa/names.txt~-rw-rw-r-- 1 jianliu jianliu 0 Oct 11 07:59 ./aa/shell10.sh

14. 搜索但跳出指定的目录

  • 查找当前目录或者子目录下所有.txt文件,但是跳过子目录sk
find . -path "./sk" -prune -o -name "*.txt" -printjianliu@ubuntu:~/aa$ find . -path "./bb" -prune -o -name "*.txt" -print./names.txt./TEST0.txt./student_data.txt./test.txt./test0.txt
  • 要列出所有长度为零的文件
find . -empty

find和xargs结合

  • xargs: —build and execute command lines from standard input
  • 在使用find命令的-exec选项处理匹配到的文件时,find命令将所有匹配到的文件在一起传递给exec执行。但有些系统对能够传递给exec的命令长度有限制,这样在find命令运行几分钟后,就会出现溢出错误。错误信息通常为”参数列太长“或者”参数列溢出“。这就是xargs命令的用处所在。

  • find命令把匹配到的文件传递给xargs命令,而xargs命令每次只获取一部分文件而不是全部,不像-exec选项那样。这样它可以先处理最先获取的一部分文件,然后处理下一批,并如此继续下去。

  • 在有些系统中,使用-exec选项会为处理每一个匹配到的文件而发起一个相应的进程,并非将匹配到的文件全部作为参数一次执行;这样在有些情况下就会出现进程过多,系统性能下降的问题,因而效率不高;

  • 而使用xargs命令则只有一个进程。另外,在使用xargs命令时,究竟是一次获取所有的参数,还是分批取得参数,以及每一次获取参数的数目都会根据该命令的选项及系统内核中相应的可调参数来确定。

#在当前目录下查找所有用户具有读、写和执行权限的文件,并收回相应的写权限$ ls -ldrwxrwxrwx    2 sam      adm          4096 10月 30 20:14 file6-rwxrwxrwx    2 sam      adm             0 1031 01:01 http3.conf-rwxrwxrwx    2 sam      adm             0 1031 01:01 httpd.conf#chmod o-w中的o表示其他组。$ find . -perm -7 -print | xargs chmod o-w$ ls -ldrwxrwxr-x    2 sam      adm          4096 10月 30 20:14 file6-rwxrwxr-x    2 sam      adm             0 1031 01:01 http3.conf-rwxrwxr-x    2 sam      adm             0 1031 01:01 httpd.conf
#用grep命令在所有的普通文件中搜索hostname这个词$ find . -type f -print | xargs grep "hostname"./httpd1.conf:#     different IP addresses or hostnames and have them handled by the./httpd1.conf:# VirtualHost: If you want to maintain multiple domains/hostnames on your
#用grep命令在当前目录下的所有普通文件中搜索hostnames这个词$ find . -name \* -type f -print | xargs grep "hostnames"./httpd1.conf:#     different IP addresses or hostnames and have them handled by the./httpd1.conf:# VirtualHost: If you want to maintain multiple domains/hostnames on your####---------------#注意,在上面的例子中, \用来取消find命令中的*在shell中的特殊含义。
  • find命令配合使用exec和xargs可以使用户对所匹配到的文件执行几乎所有的命令。
阅读全文
1 0