linux下面两个有意思的文件与硬盘的问题

来源:互联网 发布:初学电钢琴推荐 知乎 编辑:程序博客网 时间:2024/06/08 12:31

一、场景:
1.服务是java spring项目,用nohup java 各种参数 -jar –spring.location.config= .yml & 起的。
2.做压力测试nohup.out越来越大,把根分区占满了 。
3.开发直接用rm -rf删了这个文件,然而硬盘依然是满的。

处理过程:
1.df -h 发现根分区使用100%
2.find / -type f -size +1G并没有发现超大的文件
3.lsof | grep deleted 发现了开发删了一个nohup.out但是进程并没有结束,空间没有释放。
4.处理:直接把这个进程kill掉 发现磁盘空间被释放掉了。

原因分析:在Linux或者Unix系统中,通过rm或者文件管理器删除文件将会从文件系统的文件夹结构上解除链接(unlink).然而假设文件是被
打开的(有一个进程正在使用),那么进程将仍然能够读取该文件,磁盘空间也一直被占用。而我删除的是nohup.out的文件删除的时候文件应该正在被使用。

怎样让进程释放呢?

一种方法是kill掉相应的进程,或者停掉使用这个文件的应用,让os自己主动回收磁盘空间

我这个环境有非常多进程在使用的这个文件,停掉进程有点麻烦,再有就是风险非常大

当linux打开一个文件的时候,Linux内核会为每个进程在/proc/ 『/proc/nnnn/fd/文件夹(nnnn为pid)』建立一个以其pid
为名的文件夹用来保存进程的相关信息,而其子文件夹fd保存的是该进程打开的全部文件的fd(fd:file descriptor)。

kill进程是通过截断proc文件系统中的文件能够强制要求系统回收分配给正在使用的的文件。
这是一项高级技术,仅到管理员确定不会对执行中的进程造成影响时使用。应用程序对这样的方
式支持的并不好,当一个正在使用的文件被截断可能会引发不可预知的问题

学习下lsof命令lsof全名list opened files,也就是列举系统中已经被打开的文件。我们都知道,linux环境中,不论什么事物都是文件,设备是文件,文件夹是文件,甚至sockets也是文件。所以,用好lsof命令,对日常的linux管理非常有帮助。lsof是linux最常常使用的命令之中的一个,通常的输出格式为:引用COMMAND     PID   USER   FD      TYPE     DEVICE     SIZE       NODE NAME常见包含例如以下几个字段:许多其他的可见manual。1、COMMAND默认以9个字符长度显示的命令名称。可使用+c參数指定显示的宽度,若+c后跟的參数为零,则显示命令的全名2、PID:进程的ID号3、PPID父进程的IP号,默认不显示,当使用-R參数可打开。4、PGID进程组的ID编号,默认也不会显示,当使用-g參数时可打开。5、USER命令的执行UID或系统中登陆的username称。默认显示为username,当使用-l參数时,可显示UID。6、FD是文件的File Descriptor number,或者例如以下的内容:(这里非常难翻译相应的意思,保留英文)引用cwd  current working directory;Lnn  library references (AIX);jld  jail directory (FreeBSD);ltx  shared library text (code and data);Mxx  hex memory-mapped type number xx.m86  DOS Merge mapped file;mem  memory-mapped file;mmap memory-mapped device;pd   parent directory;rtd  root directory;tr   kernel trace file (OpenBSD);txt  program text (code and data);v86  VP/ix mapped file;文件的File Descriptor number显示模式有:引用r for read access;w for write access;u for read and write access;N for a Solaris NFS lock of unknown type;r for read lock on part of the file;R for a read lock on the entire file;w for a write lock on part of the file;W for a write lock on the entire file;u for a read and write lock of any length;U for a lock of unknown type;x for an SCO OpenServer Xenix lock on part  of the file;X  for an SCO OpenServer Xenix lock on the entire file;space if there is no lock.7、TYPE引用IPv4 IPv4的包;IPv6 使用IPv6格式的包,即使地址是IPv4的,也会显示为IPv6,而映射到IPv6的地址;DIR 文件夹LINK 链接文件详情请看manual中许多其他的凝视。8、DEVICE使用character special、block special表示的设备号9、SIZE文件的大小,假设不能用大小表示的,会留空。使用-s參数控制。10、NODE本地文件的node码,或者协议,如TCP等11、NAME挂载点和文件的全路径(链接会被解析为实际路径),或者连接两方的地址和端口、状态等
常常使用演示例子:1.显示开启文件/home/oracle/10.2.0/db_1/bin/tnslsnr的进程[root@svr-db-test ~]# lsof /home/oracle/10.2.0/db_1/bin/tnslsnrCOMMAND  PID   USER  FD   TYPE DEVICE   SIZE     NODE NAMEtnslsnr 3520 oracle txt    REG  253,5 431062 11408866 /home/oracle/10.2.0/db_1/bin/tnslsnr2.知道22端口如今执行什么程序[root@svr-db-test ~]# lsof -i :22COMMAND  PID USER   FD   TYPE  DEVICE SIZE NODE NAMEsshd    3101 root    3u  IPv6    8670       TCP *:ssh (LISTEN)sshd    4545 root    3u  IPv6 4237972       TCP 203.aibo.com:ssh->win-avbmq9e8ka7.gdgg.local:nsjtp-ctrl (ESTABLISHED)3.显示init进程如今打开的文件[root@svr-db-test ~]# lsof -c initCOMMAND PID USER   FD   TYPE DEVICE    SIZE   NODE NAMEinit      1 root  cwd    DIR  253,0    4096      2 /init      1 root  rtd    DIR  253,0    4096      2 /init      1 root  txt    REG  253,0   43496 524446 /sbin/initinit      1 root  mem    REG  253,0  130448 917826 /lib64/ld-2.5.soinit      1 root  mem    REG  253,0 1678480 917827 /lib64/libc-2.5.soinit      1 root  mem    REG  253,0   23520 917686 /lib64/libdl-2.5.soinit      1 root  mem    REG  253,0  247528 917844 /lib64/libsepol.so.1init      1 root  mem    REG  253,0   95480 917845 /lib64/libselinux.so.1init      1 root   10u  FIFO   0,16           2311 /dev/initctl4. 看进程号为1的进程打开了哪些文件[root@svr-db-test ~]# lsof -p 1COMMAND PID USER   FD   TYPE DEVICE    SIZE   NODE NAMEinit      1 root  cwd    DIR  253,0    4096      2 /init      1 root  rtd    DIR  253,0    4096      2 /init      1 root  txt    REG  253,0   43496 524446 /sbin/initinit      1 root  mem    REG  253,0  130448 917826 /lib64/ld-2.5.soinit      1 root  mem    REG  253,0 1678480 917827 /lib64/libc-2.5.soinit      1 root  mem    REG  253,0   23520 917686 /lib64/libdl-2.5.soinit      1 root  mem    REG  253,0  247528 917844 /lib64/libsepol.so.1init      1 root  mem    REG  253,0   95480 917845 /lib64/libselinux.so.1init      1 root   10u  FIFO   0,16           2311 /dev/initctl5. 显示归属3520的进程情况[root@svr-db-test ~]# lsof -g 3520COMMAND  PID PGID   USER   FD   TYPE             DEVICE      SIZE     NODE NAMEtnslsnr 3520 3520 oracle  cwd    DIR              253,5      4096 11059201 /home/oracletnslsnr 3520 3520 oracle  rtd    DIR              253,0      4096        2 /tnslsnr 3520 3520 oracle  txt    REG              253,5    431062 11408866 /home/oracle/10.2.0/db_1/bin/tnslsnrtnslsnr 3520 3520 oracle  mem    REG              253,0    130448   917826 /lib64/ld-2.5.sotnslsnr 3520 3520 oracle  mem    REG              253,0   1678480   917827 /lib64/libc-2.5.sotnslsnr 3520 3520 oracle  mem    REG              253,0     23520   917686 /lib64/libdl-2.5.sotnslsnr 3520 3520 oracle  mem    REG              253,0    615136   917834 /lib64/libm-2.5.sotnslsnr 3520 3520 oracle  mem    REG              253,0    141208   917829 /lib64/libpthread-2.5.sotnslsnr 3520 3520 oracle  mem    REG              253,0    109824   917839 /lib64/libnsl-2.5.sotnslsnr 3520 3520 oracle  mem    REG              253,5  20706622 11405436 /home/oracle/10.2.0/db_1/lib/libclntsh.so.10.1tnslsnr 3520 3520 oracle  mem    REG              253,5   3803097 11410641 /home/oracle/10.2.0/db_1/lib/libnnz10.sotnslsnr 3520 3520 oracle  mem    REG              253,5     83493 11407251 /home/oracle/10.2.0/db_1/lib/libons.sotnslsnr 3520 3520 oracle  mem    REG              253,0     53880   917532 /lib64/libnss_files-2.5.sotnslsnr 3520 3520 oracle  mem    REG              253,5      8545 11407615 /home/oracle/10.2.0/db_1/lib/libskgxn2.sotnslsnr 3520 3520 oracle  mem    REG              253,5    513705 11410332 /home/oracle/10.2.0/db_1/lib/libocrutl10.sotnslsnr 3520 3520 oracle  mem    REG              253,5    636161 11410330 /home/oracle/10.2.0/db_1/lib/libocr10.sotnslsnr 3520 3520 oracle  mem    REG              253,5    657825 11410331 /home/oracle/10.2.0/db_1/lib/libocrb10.sotnslsnr 3520 3520 oracle  mem    REG              253,5   1745769 11410365 /home/oracle/10.2.0/db_1/lib/libhasgen10.sotnslsnr 3520 3520 oracle  mem    REG              253,5     61985 11410366 /home/oracle/10.2.0/db_1/lib/libclsra10.sotnslsnr 3520 3520 oracle    0u   CHR                1,3               2553 /dev/nulltnslsnr 3520 3520 oracle    1u   CHR                1,3               2553 /dev/nulltnslsnr 3520 3520 oracle    2u   CHR                1,3               2553 /dev/nulltnslsnr 3520 3520 oracle    3w   REG              253,5 318853012 11633459 /home/oracle/10.2.0/db_1/network/log/listener.logtnslsnr 3520 3520 oracle    4r  FIFO                0,6              15661 pipetnslsnr 3520 3520 oracle    5r   REG              253,5     11776 11410579 /home/oracle/10.2.0/db_1/network/mesg/nlus.msbtnslsnr 3520 3520 oracle    6r   REG              253,5     46592 11407160 /home/oracle/10.2.0/db_1/network/mesg/tnsus.msbtnslsnr 3520 3520 oracle    7w  FIFO                0,6              15662 pipetnslsnr 3520 3520 oracle    8u  IPv4              15665                TCP 203.aibo.com:ncube-lm (LISTEN)tnslsnr 3520 3520 oracle    9u  unix 0xffff81021b7d6980              15666 /var/tmp/.oracle/s#3520.1tnslsnr 3520 3520 oracle   10u  unix 0xffff81021b7d66c0              15668 /var/tmp/.oracle/s#3520.26.按照文件夹/home/oracle来搜寻,但不会打开子文件夹,用来显示文件夹下被进程开启的文件[root@svr-db-test ~]# lsof +d /home/oracleCOMMAND  PID   USER   FD   TYPE DEVICE SIZE     NODE NAMEtnslsnr 3520 oracle  cwd    DIR  253,5 4096 11059201 /home/oracle7. 打开/home/oracle文件夹以及其子文件夹搜寻,用来显示文件夹下被进程开启的文件[root@svr-db-test ~]# lsof +D /home/oracle显示内容太多了,不显示了8. lsof -i 用以显示符合条件的进程情况语法: lsof -i[46] [protocol][@hostname|hostaddr][:service|port]46 --> IPv4 or IPv6protocol --> TCP or UDPhostname --> Internet host namehostaddr --> IPv4位置service --> /etc/service中的 service name (能够不仅仅一个)port --> 端口号 (能够不仅仅一个)例:[root@svr-db-test ~]# lsof -i tcp@192.168.2.245:1521 -nCOMMAND   PID   USER   FD   TYPE  DEVICE SIZE NODE NAMEoracle  15633 oracle   16u  IPv4 4069605       TCP 192.168.2.203:31580->192.168.2.245:ncube-lm (ESTABLISHED)或[root@svr-db-test ~]# lsof -i tcp@192.168.2.245:1521 COMMAND   PID   USER   FD   TYPE  DEVICE SIZE NODE NAMEoracle  15633 oracle   16u  IPv4 4069605       TCP 203.aibo.com:31580->192.168.2.245:ncube-lm (ESTABLISHED)lsof -n 不将IP转换为hostname,缺省是不加上-n參数9. 显示某用户的已经打开的文件(或该用户执行程序已经打开的文件)[root@svr-db-test ~]# lsof -u oracle或[root@svr-db-test ~]# lsof -u 010. 仅打印进程,方便shell脚本调用[root@svr-db-test ~]# lsof -tc sshd31014545关注:进程调试命令:truss、strace和ltrace进程无法启动,软件执行速度突然变慢,程序的"SegmentFault"等等都是让每个Unix系统用户头痛的问题,而这些问题都能够通过使用truss、strace和ltrace这三个常常使用的调试工具来高速诊断软件的"疑难杂症"

二、场景
新建文件时,所在文件系统还有大量剩余空间,却提示此文件系统空间已满??

这是很有可能是因为该文件所在分区的inode号被用尽,虽然分区的剩余容量还有很多。

df -iFilesystem                    Inodes   IUsed  IFree IUse% Mounted on/dev/mapper/dev01-root       4964352 4964352      0  100% /udev                          503779     440 503339    1% /devtmpfs                         506183     353 505830    1% /runnone                          506183       5 506178    1% /run/locknone                          506183       2 506181    1% /run/shm/dev/sda1                     124496     255 124241    1% /boot
inodes 占用100%,果然是这个问题。解决方法:删除无用的临时文件,释放inode。查找发现 /tmp 目录下有很多sess_xxxxx的 session临时文件ls -lt /tmp | wc -l4011517进入/tmp目录,执行find -exec命令sudo find /tmp -type f -exec rm {} \;
除了/tmp的临时文件外,0字节的文件也会占用inode,应该也释放。遍历寻找0字节的文件,并删除。 view plain copysudo find /home -type f -size 0 -exec rm {} \;删除后,inode 的使用量减少为19%,可以正常使用了。df -iFilesystem                    Inodes  IUsed   IFree IUse% Mounted on/dev/mapper/dev01-root       4964352 940835 4023517   19% /udev                          503779    440  503339    1% /devtmpfs                         506183    353  505830    1% /runnone                          506183      5  506178    1% /run/locknone                          506183      2  506181    1% /run/shm/dev/sda1                     124496    255  124241    1% /boot