原文轉自:https://segmentfault.com/a/1190000000461077 node
曾經在生產上遇到過一個df 和 du出現的結果不一致的問題,爲了排查究竟是哪一個進程佔用了文件句柄,致使空間未釋放,首先在linux上面,一切皆文件,這個問題可使用lsof這個BT的命令來處理(這個哈還能夠來查詢文件句柄泄露問題,應用程序的進程未關閉文件句柄)linux
注:在生產環境常見的問題就是,有維護人員或者開發同事使用tail命令實時查看日誌。而後另外的人使用rm命令刪除,這有就好致使磁盤空間不會真正的釋放,由於你要刪除的文件,還有進程在使用,文件句柄沒有釋放,即tailnginx
你建立一個文件testfilesql
touch testfile
而後使用tail命令一直查看數據庫
tail testfile
這個時候另一個同事使用rm命令來刪除了該文件vim
rm testfile
若是你知道文件名,那就能夠直接使用以下命令segmentfault
lsof |grep testfile
可是若是你不知道是哪一個文件,或者是不少文件都有這樣的狀況,那你須要使用以下命令bash
lsof |grep deleted 注:這個deleted表示該已經刪除了的文件,可是文件句柄未釋放,這個命令會把全部的未釋放文件句柄的進程列出來
注:有些系統你沒有配置環境變量的話,直接lsof是會報錯沒有該命令,你能夠直接/usr/bin/lsof 或者是/usr/sbin/lsof,根據你的系統環境本身查看ide
而後上面命令出來的結果會出來以下結果工具
root 123 12244 0 14:47 pts/1 01:02:03 tail testfile
而後你可使用kill 命令來釋放文件句柄從而釋放空間
kill 123
在說明問題以前,先介紹下一些文件的基本概念:
文件其實是一個指向inode的連接, inode連接包含了文件的全部屬性, 好比權限和全部者, 數據塊地址(文件存儲在磁盤的這些數據塊中). 當你刪除(rm)一個文件, 實際刪除了指向inode的連接, 並無刪除inode的內容. 進程可能還在使用. 只有當inode的全部連接徹底移去, 而後這些數據塊將能夠寫入新的數據.
proc文件系統能夠協助咱們恢復數據. 每個系統上的進程在/proc都有一個目錄和本身的名字, 裏面包含了一個fd(文件描述符)子目錄(進程須要打開文件的全部連接). 若是從文件系統中刪除一個文件, 此處還有一個inode的引用:
/proc/進程號/fd/文件描述符
你須要知道打開文件的進程號(pid)和文件描述符(fd). 這些均可以經過lsof工具方便得到, lsof的意思是」list open files, 列出(進程)打開的文件」. 而後你將能夠從/proc拷貝出須要恢復的數據.
touch testfile cp testfile testfile.backup.2014
stat testfile File: 'testfile'Size: 343545 Blocks: 241 IO Block: 4096 regular file Device: fd00h/64768d Inode: 361579 Links: 1Access: (0664/-rw-rw-r–) Uid: ( 505/ zhaoke) Gid: ( 505/ zhaoke) Access: 2014-11-09 15:00:38.000000000 +0800Modify: 2014-11-09 15:00:34.000000000 +0800Change: 2014-04-09 15:00:34.000000000 +0800
沒問題, 繼續下面工做:
rm testfile
ls -l testfilels: testfile: No such file or directory
stat testfilestat: cannot stat 'testfile': No such file or directory
testfile文件刪除了,但不要終止仍在使用文件的進程, 由於一旦終止, 文件將很難恢復.
lsof | grep testfile tail 5317 root 4r REG 253,0 343545 361579 /root/testfile (deleted)
第一個縱行是進程的名稱(命令名), 第二縱行是進程號(PID), 第四縱行是文件描述符
如今你知道5317進程仍有打開文件, 文件描述符是4. 那咱們開始從/proc裏面拷貝出數據.
你可能會考慮使用cp -a, 但實際上沒有做用, 你將拷貝的是一個指向被刪除文件的符號連接:
ls -l /proc/5317/fd/4lr-x—— 1 root root 64 09 15:00 /proc/5317/fd/4 -> /root/testfile (deleted)
使用cp -a命令測試恢復
cp -a /proc/5317/fd/4 testfile.backup
使用ls命令來查看
ls -l testfile.backup
lrwxrwxrwx 1 root root 29 09 15:02 testfile.backup -> /roor/testfile (deleted)
經過上面的命令咱們發現,使用cp -a命令,其恢復的是一個指向被刪除文件的符號連接
使用file命令分別查看文件和文件描述符
1.查看文件
file testfile.backup testfile.backup: broken symbolic link to '/root/testfile (deleted)'
2.查看文件描述符
file /proc/5317/fd/4/proc/5317/fd/4: broken symbolic link to '/root/myfile (deleted)'
根據上面的file結果,可使用cp拷貝出文件描述符數據到一個文件中,以下:
cp /proc/5317/fd/4 testfile.new
使用上面的命令恢復後,咱們須要最終確認一下文件是否恢復,以及文件內容是否正確:
ls -l testfile.new
而後把新舊的兩個文件對比
diff testfile.new myfile.backup
lsof使用實例 SECTION "lsof使用實例" [6313-6341] 1、查找誰在使用文件系統 在卸載文件系統時,若是該文件系統中有任何打開的文件,操做一般將會失敗。那麼經過lsof能夠找出那些進程在使用當前要卸載的文件系統,以下: # lsof /GTES11/ COMMAND PID USER FD TYPE DEVICE SIZE NODE NAME bash 4208 root cwd DIR 3,1 4096 2 /GTES11/ vim 4230 root cwd DIR 3,1 4096 2 /GTES11/ 在這個示例中,用戶root正在其/GTES11目錄中進行一些操做。一個 bash是實例正在運行,而且它當前的目錄爲/GTES11,另外一個則顯示的是vim正在編輯/GTES11下的文件。要成功地卸載/GTES11,應該在通知用戶以確保狀況正常以後,停止這些進程。 這個示例說明了應用程序的當前工做目錄很是重要,由於它仍保持着文件資源,而且能夠防止文件系統被卸載。這就是爲何大部分守護進程(後臺進程)將它們的目錄更改成根目錄、或服務特定的目錄(如 sendmail 示例中的 /var/spool/mqueue)的緣由,以免該守護進程阻止卸載不相關的文件系統。 SECTION "1、查找誰在使用文件系統" [6342-7488] 2、恢復刪除的文件 當Linux計算機受到***時,常見的狀況是日誌文件被刪除,以掩蓋***者的蹤影。管理錯誤也可能致使意外刪除重要的文件,好比在清理舊日誌時,意外地刪除了數據庫的活動事務日誌。有時能夠經過lsof來恢復這些文件。 當進程打開了某個文件時,只要該進程保持打開該文件,即便將其刪除,它依然存在於磁盤中。這意味着,進程並不知道文件已經被刪除,它仍然能夠向打開該文件時提供給它的文件描述符進行讀取和寫入。除了該進程以外,這個文件是不可見的,由於已經刪除了其相應的目錄索引節點。 在/proc 目錄下,其中包含了反映內核和進程樹的各類文件。/proc目錄掛載的是在內存中所映射的一塊區域,因此這些文件和目錄並不存在於磁盤中,所以當咱們對這些文件進行讀取和寫入時,其實是在從內存中獲取相關信息。大多數與 lsof 相關的信息都存儲於以進程的 PID 命名的目錄中,即 /proc/1234 中包含的是 PID 爲 1234 的進程的信息。每一個進程目錄中存在着各類文件,它們可使得應用程序簡單地瞭解進程的內存空間、文件描述符列表、指向磁盤上的文件的符號連接和其餘系統信息。lsof 程序使用該信息和其餘關於內核內部狀態的信息來產生其輸出。因此lsof 能夠顯示進程的文件描述符和相關的文件名等信息。也就是咱們經過訪問進程的文件描述符能夠找到該文件的相關信息。 當系統中的某個文件被意外地刪除了,只要這個時候系統中還有進程正在訪問該文件,那麼咱們就能夠經過lsof從/proc目錄下恢復該文件的內容。 假如因爲誤操做將/var/log/messages文件刪除掉了,那麼這時要將/var/log/messages文件恢復的方法以下: 首先使用lsof來查看當前是否有進程打開/var/logmessages文件,以下: # lsof |grep /var/log/messages syslogd 1283 root 2w REG 3,3 5381017 1773647 /var/log/messages (deleted) 從上面的信息能夠看到 PID 1283(syslogd)打開文件的文件描述符爲 2。同時還能夠看到/var/log/messages已經標記被刪除了。所以咱們能夠在 /proc/1283/fd/2 (fd下的每一個以數字命名的文件表示進程對應的文件描述符)中查看相應的信息,以下: # head -n 10 /proc/1283/fd/2 Aug 4 13:50:15 holmes86 syslogd 1.4.1: restart. Aug 4 13:50:15 holmes86 kernel: klogd 1.4.1, log source = /proc/kmsg started. Aug 4 13:50:15 holmes86 kernel: Linux version 2.6.22.1-8 (root@everestbuilder.linux-ren.org) (gcc version 4.2.0) #1 SMP Wed Jul 18 11:18:32 EDT 2007 Aug 4 13:50:15 holmes86 kernel: BIOS-provided physical RAM map: Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 0000000000000000 - 000000000009f000 (usable) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 000000000009f000 - 00000000000a0000 (reserved) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 0000000000100000 - 000000001f7d3800 (usable) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 000000001f7d3800 - 0000000020000000 (reserved) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 00000000e0000000 - 00000000f0007000 (reserved) Aug 4 13:50:15 holmes86 kernel: BIOS-e820: 00000000f0008000 - 00000000f000c000 (reserved) 從上面的信息能夠看出,查看 /proc/8663/fd/15 就能夠獲得所要恢復的數據。若是能夠經過文件描述符查看相應的數據,那麼就可使用 I/O 重定向將其複製到文件中,如: cat /proc/1283/fd/2 > /var/log/messages 對於許多應用程序,尤爲是日誌文件和數據庫,這種恢復刪除文件的方法很是有用。