linux 系統監控、診斷工具之 lsof 用法簡介

一、lsof 簡介

lsof 是 linux 下的一個很是實用的系統級的監控、診斷工具。
它的意思是 List Open Files,很容易你就記住了它是 「ls + of」的組合~
它能夠用來列出被各類進程打開的文件信息,記住:linux 下 「一切皆文件」
包括但不限於 pipes, sockets, directories, devices, 等等。
所以,使用 lsof,你能夠獲取任何被打開文件的各類信息。html

只需輸入 lsof 就能夠生成大量的信息,由於 lsof 須要訪問核心內存和各類文件,因此必須以 root 用戶的身份運行它纔可以充分地發揮其功能。linux

lsof 的示例輸出:nginx

root@YLinux:~/lab 0# lsof
COMMAND     PID   TID       USER   FD      TYPE     DEVICE SIZE/OFF       NODE NAME
systemd       1             root  cwd       DIR        8,6     4096          2 /
systemd       1             root  rtd       DIR        8,6     4096          2 /
systemd       1             root  txt       REG        8,6  2273340    1834909 /usr/lib/systemd/systemd
systemd       1             root  mem       REG        8,6   210473    1700647 /lib/libnss_files-2.15.s
...

 

二、lsof 經常使用用法

2.1 監控打開的文件、設備

查看文件、設備被哪些進程佔用windows

# lsof /dev/tty1
COMMAND     PID USER   FD   TYPE DEVICE SIZE/OFF NODE NAME
bash       1770 jian    0u   CHR    4,1      0t0 1045 /dev/tty1
bash       1770 jian    1u   CHR    4,1      0t0 1045 /dev/tty1
bash       1770 jian    2u   CHR    4,1      0t0 1045 /dev/tty1
bash       1770 jian  255u   CHR    4,1      0t0 1045 /dev/tty1
startx     1845 jian    0u   CHR    4,1      0t0 1045 /dev/tty1
startx     1845 jian    1u   CHR    4,1      0t0 1045 /dev/tty1
...

 

2.2 監控文件系統

指定目錄、掛載點,能夠看到有哪些進程打開了其下的文件:bash

# lsof /data/
COMMAND   PID USER   FD   TYPE DEVICE SIZE/OFF NODE NAME
bash    15983 jian  cwd    DIR    8,5     4096 8252 /data/backup
...

 

這在 umount 某個文件系統失敗時很是有用(一般會報該 FS is busy)。網絡

列出某個目錄(掛載點 如 /home 也行)下被打開的文件:less

# lsof +D /var/log/

COMMAND   PID   USER  FD   TYPE DEVICE SIZE/OFF   NODE NAME
rsyslogd  488 syslog   1w   REG    8,1     1151 268940 /var/log/syslog
rsyslogd  488 syslog   2w   REG    8,1     2405 269616 /var/log/auth.log
console-k 144   root   9w   REG    8,1    10871 269369 /var/log/ConsoleKit/history

 

列出被指定進程名打開的文件:ssh

# lsof -c ssh -c init

COMMAND    PID   USER   FD   TYPE DEVICE SIZE/OFF   NODE NAME
init         1       root  txt    REG        8,1   124704  917562 /sbin/init
init         1       root  mem    REG        8,1  1434180 1442625 /lib/i386-linux-gnu/libc-2.13.so
init         1       root  mem    REG        8,1    30684 1442694 /lib/i386-linux-gnu/librt-2.13.so
...
ssh-agent 1528 lakshmanan    1u   CHR        1,3      0t0    4369 /dev/null
ssh-agent 1528 lakshmanan    2u   CHR        1,3      0t0    4369 /dev/null
ssh-agent 1528 lakshmanan    3u  unix 0xdf70e240      0t0   10464 /tmp/ssh-sUymKXxw1495/agent.1495

 

2.3 監控進程

指定進程號,能夠查看該進程打開的文件:socket

# lsof -p 2064
COMMAND  PID USER   FD   TYPE     DEVICE SIZE/OFF    NODE NAME
firefox 2064 jian  cwd    DIR        8,6     4096 1571780 /home/jian
firefox 2064 jian  rtd    DIR        8,6     4096       2 /
firefox 2064 jian  txt    REG        8,6    44224 1985670 /usr/lib/firefox-12.0/firefox
firefox 2064 jian  mem    REG        8,6 14707012  925361 /usr/share/fonts/chinese/msyhbd.ttf
firefox 2064 jian  mem    REG        8,6 15067744  925362 /usr/share/fonts/chinese/msyh.ttf
firefox 2064 jian  mem    REG        8,6 16791251 1701681 /usr/share/fonts/wenquanyi/wqy-zenhei.ttc
firefox 2064 jian  mem    REG       0,16 67108904   10203 /dev/shm/pulse-shm-3021850167
...

 

當你想要殺掉某個用戶全部打開的文件、設備,你能夠這樣:tcp

kill -9 `lsof -t -u lakshmanan`

此處 -t 的做用是單獨的列出 進程 id 這一列。

關於殺死進程的 4 種方式,請參考:

http://www.thegeekstuff.com/2009/12/4-ways-to-kill-a-process-kill-killall-pkill-xkill/

2.4 監控網絡

查看指定端口有哪些進程在使用(lsof -i 列出全部的打開的網絡鏈接):

# lsof -i:22
COMMAND  PID USER   FD   TYPE DEVICE SIZE/OFF NODE NAME
sshd    1569 root    3u  IPv4  10303      0t0  TCP *:ssh (LISTEN)
sshd    1569 root    4u  IPv6  10305      0t0  TCP *:ssh (LISTEN)
...

 

列出被某個進程打開全部的網絡文件:

lsof -i -a -p 234

或者

lsof -i -a -c ssh

 

列出全部 tcp、udp 鏈接:

lsof -i tcp; 
lsof -i udp;

 

列出全部 NFS 文件:

lsof -N -u lakshmanan -a

 

查看指定網口有哪些進程在使用:

# lsof -i@192.168.1.91
COMMAND     PID USER   FD   TYPE DEVICE SIZE/OFF NODE NAME
skype      1909 jian   54u  IPv4   9116      0t0  TCP 192.168.1.91:40640->64.4.23.153:40047 (ESTABLISHED)
pidgin     1973 jian    7u  IPv4   6599      0t0  TCP 192.168.1.91:59311->hx-in-f125.1e100.net:https (ESTABLISHED)
pidgin     1973 jian   13u  IPv4   9260      0t0  TCP 192.168.1.91:54447->by2msg3010511.phx.gbl:msnp (ESTABLISHED)
...

 

三、更使用技巧

3.1 監控用戶

查看指定用戶打開的文件(lsof -u ^lakshmanan 能夠排除某用戶):

# lsof -u messagebus
COMMAND    PID       USER   FD   TYPE     DEVICE SIZE/OFF    NODE NAME
dbus-daem 1805 messagebus  cwd    DIR        8,6     4096       2 /
dbus-daem 1805 messagebus  rtd    DIR        8,6     4096       2 /
dbus-daem 1805 messagebus  txt    REG        8,6  1235361 1834948 /usr/bin/dbus-daemon
dbus-daem 1805 messagebus  mem    REG        8,6   210473 1700647 /lib/libnss_files-2.15.so
dbus-daem 1805 messagebus  mem    REG        8,6   190145 1700642 /lib/libnss_nis-2.15.so
dbus-daem 1805 messagebus  mem    REG        8,6   490366 1700636 /lib/libnsl-2.15.so
...

 

3.2 監控應用程序

查看指定程序打開的文件:

# lsof -c firefox
COMMAND  PID USER   FD   TYPE     DEVICE SIZE/OFF    NODE NAME
firefox 2064 jian  cwd    DIR        8,6     4096 1571780 /home/jian
firefox 2064 jian  rtd    DIR        8,6     4096       2 /
firefox 2064 jian  txt    REG        8,6    44224 1985670 /usr/lib/firefox-12.0/firefox
firefox 2064 jian  mem    REG        8,6 14707012  925361 /usr/share/fonts/chinese/msyhbd.ttf
firefox 2064 jian  mem    REG        8,6 15067744  925362 /usr/share/fonts/chinese/msyh.ttf
firefox 2064 jian  mem    REG        8,6 16791251 1701681 /usr/share/fonts/wenquanyi/wqy-zenhei.ttc
...

 

四、命令模式技巧

4.1 組合邏輯查詢條件

只有多個查詢條件都知足, 用 "-a" 參數,默認是 -o 。

# lsof -a -c bash -u root
COMMAND  PID USER   FD   TYPE DEVICE SIZE/OFF    NODE NAME
bash    1986 root  cwd    DIR    8,6     4096 1701593 /root/lab
bash    1986 root  rtd    DIR    8,6     4096       2 /
bash    1986 root  txt    REG    8,6  1994157 1700632 /bin/bash
bash    1986 root  mem    REG    8,6  9690800  405214 /usr/lib/locale/locale-archive
bash    1986 root  mem    REG    8,6   210473 1700647 /lib/libnss_files-2.15.so

 

4.2 lsof 命令的重複執行模式:

基於給定的參數延時多少秒重複執行 lsof

+r 表示 當沒有文件被打開的時候,repeat mode 將自行結束。

-r 表示 無論文件是否存在或者被打開,它都將執行,直到你中斷它。

每一個循環的輸出使用 ‘=======’ 作分隔符,你也能夠用 ‘-r’ | ‘+r’ 指定延時時間。

 

# lsof -u lakshmanan -c init -a -r5

=======
=======
COMMAND   PID       USER   FD   TYPE DEVICE SIZE/OFF    NODE NAME
inita.sh 2971 lakshmanan  cwd    DIR    8,1     4096  393218 /home/lakshmanan
inita.sh 2971 lakshmanan  rtd    DIR    8,1     4096       2 /
inita.sh 2971 lakshmanan  txt    REG    8,1    83848  524315 /bin/dash
inita.sh 2971 lakshmanan  mem    REG    8,1  1434180 1442625 /lib/i386-linux-gnu/libc-2.13.so
inita.sh 2971 lakshmanan  mem    REG    8,1   117960 1442612 /lib/i386-linux-gnu/ld-2.13.so
inita.sh 2971 lakshmanan    0u   CHR  136,4      0t0       7 /dev/pts/4
inita.sh 2971 lakshmanan    1u   CHR  136,4      0t0       7 /dev/pts/4
inita.sh 2971 lakshmanan    2u   CHR  136,4      0t0       7 /dev/pts/4
inita.sh 2971 lakshmanan   10r   REG    8,1       20  393578 /home/lakshmanan/inita.sh
=======

 

以上輸出是前 5 秒沒有輸出,而後 「inita.sh」 啓動後,開始有了輸出。

五、最後的技巧

關於磁盤空間告警 df -h --max=1 與 du -hx --max=1 顯示不一致的問題,

最多見的的仍是下面這種狀況:

lsof|grep -i delete

看看被刪除的文件:有些刪了文件,可是進程沒 reload,那些空間仍是佔用的,你能夠理解爲相似 windows 下的進程句柄沒釋放的概念吧~ 

只是 windows 下若是有文件被進程使用,你通常是刪不掉的,而 linux 雖然不作刪除限制,但卻要等到進程使用完文件才能徹底釋放,以防止進程奔潰,這是操做系統對資源的管理差別吧~
例如 nginx 會有不少臨時文件佔用了 /tmp 目錄,刪掉後,依然佔用着空間,

此時你能夠:

pkill -9 nginx && /etc/init.d/nginx restart

那若是你想更優雅的釋放空間,而不是強制重啓進程呢?

能夠藉助 gdb 或者直接清空進程空間所持有的 fd:

let's assume we have a file my10MBfile

$ dd if=/dev/zero of=/tmp/my10MBfile bs=1M count=10
10+0 enregistrements lus
10+0 enregistrements écrits
10485760 octets (10 MB) copiés, 0,0454491 s, 231 MB/s

$ ls -l /tmp/my10MBfile
-rw-r--r-- 1 max max 10485760 avril 23 22:49 /tmp/my10MBfile

$ df -m /tmp
/dev/disk/by-uuid/6835b2fd-971d-420c-ba18-3c729ec2e8a0     14637  9225       4662  67% /
Now i open that file with less (yes it is a binary file... nevermind)

$ less /tmp/my10MBfile &

$ lsof -p $(pidof less) | grep 10MBfile
less    29351  max    4r   REG    8,3 10485760 521464 /tmp/my10MBfile
Then I remove that file

$ rm /tmp/my10MBfile

$ lsof -p $(pidof less) | grep 10MBfile
less    29351  max    4r   REG    8,3 10485760 521464 /tmp/my10MBfile (deleted)

$ df -m /tmp
/dev/disk/by-uuid/6835b2fd-971d-420c-ba18-3c729ec2e8a0     14637  9225       4662  67% /
Still there but deleted, look at the 4th column of the lsof output: File Descriptor number 4 open for Reading (4r)

let's running GDB!

$ gdb -p $(pidof less)

GNU gdb (GDB) 7.4.1-debian
....
Attaching to process 29351
....

(gdb) p close(4)
$1 = 0
(gdb) q
That's it!

$ df -m /tmp
/dev/disk/by-uuid/6835b2fd-971d-420c-ba18-3c729ec2e8a0     14637  9215       4672  67% /
Our 10MB are welcome back :)

$ ls /proc/29351/fd
0  1  2  3

$ ps 29351
29351 pts/0    S+     0:00 less /tmp/my10MBfile
Process is still running.

###############################################
## 若是想要更直接的話能夠:
###############################################

find /proc/*/fd -ls 2> /dev/null | grep '(deleted)'
Find all opened file descriptors.

Grep deleted.

StdError to /dev/null

Output:

160448715    0 lrwx------   1 user      user            64 Nov 29 15:34 /proc/28680/fd/113 -> /tmp/vteT3FWPX\ (deleted)
Or you can use awk

find /proc/*/fd -ls 2> /dev/null | awk '/deleted/ {print $11}';

awk output(tested in bash Ubuntu 12.04):

/proc/28680/fd/113
Find and truncate all deleted files(tested in bash Ubuntu 12.04):

(DON'T DO THIS IF YOU DON'T KNOW WHAT YOU DO)

find /proc/*/fd -ls 2> /dev/null | awk '/deleted/ {print $11}' | xargs -p -n 1 truncate -s 0
-p prompt before execute truncate

Better way is manual truncate

Manual truncate:

: > /proc/28680/fd/113
or:

> /proc/28680/fd/113
or:

truncate -s 0 /proc/28680/fd/113
Enjoy ;)


好吧,本文到此結束了,關於 lsof 還有不少不少,不過筆者經常使用、知道的就這些了,也歡迎給位朋友留言交流分享。

六、refer: 

[1] 使用 lsof 查找打開的文件

http://www.ibm.com/developerworks/cn/aix/library/au-lsof.html

[2] 15 Linux lsof Command Examples (Identify Open Files)

http://www.thegeekstuff.com/2012/08/lsof-command-examples/

[3] 實用的系統工具之 lsof

http://www.ylinux.org/forum/t/276

[4] How to recover free space on deleted files without restarting the referencing processes?

http://serverfault.com/questions/501963/how-to-recover-free-space-on-deleted-files-without-restarting-the-referencing-pr

相關文章
相關標籤/搜索