曾經在生產上遇到過一個df 和 du出現的結果不一致的問題,爲了排查究竟是哪一個進程佔用了文件句柄,致使空間未釋放,首先在linux上面,一切皆文件,這個問題可使用lsof這個BT的命令來處理(這個哈還能夠來查詢文件句柄泄露問題,應用程序的進程未關閉文件句柄)node
1.文件句柄以及空間釋放問題linux
注:在生產環境常見的問題就是,有維護人員或者開發同事使用tail命令實時查看日誌。而後另外的人使用rm命令刪除,這有就好致使磁盤空間不會真正的釋放,由於你要刪除的文件,還有進程在使用,文件句柄沒有釋放,即tail 模擬場景1:工具
你建立一個文件testfile測試
touch testfile 而後使用tail命令一直查看日誌
tail testfile 這個時候另一個同事使用rm命令來刪除了該文件進程
rm testfile 正式使用lsof命令排查開發
若是你知道文件名,那就能夠直接使用以下命令test
lsof |grep testfile 可是若是你不知道是哪一個文件,或者是不少文件都有這樣的狀況,那你須要使用以下命令變量
lsof |grep deleted 注:這個deleted表示該已經刪除了的文件,可是文件句柄未釋放,這個命令會把全部的未釋放文件句柄的進程列出來 注:有些系統你沒有配置環境變量的話,直接lsof是會報錯沒有該命令,你能夠直接/usr/bin/lsof 或者是/usr/sbin/lsof,根據你的系統環境本身查看配置
而後上面命令出來的結果會出來以下結果
root 123 12244 0 14:47 pts/1 01:02:03 tail testfile 而後你可使用kill 命令來釋放文件句柄從而釋放空間
kill 123 2. 文件恢復問題
在說明問題以前,先介紹下一些文件的基本概念:
文件其實是一個指向inode的連接, inode連接包含了文件的全部屬性, 好比權限和全部者, 數據塊地址(文件存儲在磁盤的這些數據塊中). 當你刪除(rm)一個文件, 實際刪除了指向inode的連接, 並無刪除inode的內容. 進程可能還在使用. 只有當inode的全部連接徹底移去, 而後這些數據塊將能夠寫入新的數據. proc文件系統能夠協助咱們恢復數據. 每個系統上的進程在/proc都有一個目錄和本身的名字, 裏面包含了一個fd(文件描述符)子目錄(進程須要打開文件的全部連接). 若是從文件系統中刪除一個文件, 此處還有一個inode的引用: /proc/進程號/fd/文件描述符 你須要知道打開文件的進程號(pid)和文件描述符(fd). 這些均可以經過lsof工具方便得到, lsof的意思是」list open files, 列出(進程)打開的文件」. 而後你將能夠從/proc拷貝出須要恢復的數據. 1.建立一個測試文件而且備份下,方面後續驗證
touch testfile cp testfile testfile.backup.2014 2.查看文件的相關信息
stat testfile
File: 'testfile' Size: 343545 Blocks: 241 IO Block: 4096 regular file Device: fd00h/64768d Inode: 361579 Links: 1 Access: (0664/-rw-rw-r–) Uid: ( 505/ zhaoke) Gid: ( 505/ zhaoke) Access: 2014-11-09 15:00:38.000000000 +0800 Modify: 2014-11-09 15:00:34.000000000 +0800 Change: 2014-04-09 15:00:34.000000000 +0800
沒問題, 繼續下面工做:
3.刪除文件
rm testfile
4.查看文件
ls -l testfile ls: testfile: No such file or directory stat testfile stat: cannot stat 'testfile': No such file or directory testfile文件刪除了,但不要終止仍在使用文件的進程, 由於一旦終止, 文件將很難恢復.
如今咱們開始找回數據之旅,先使用lsof命令查看下
lsof | grep testfile tail 5317 root 4r REG 253,0 343545 361579 /root/testfile (deleted) 第一個縱行是進程的名稱(命令名), 第二縱行是進程號(PID), 第四縱行是文件描述符
如今你知道5317進程仍有打開文件, 文件描述符是4. 那咱們開始從/proc裏面拷貝出數據.
你可能會考慮使用cp -a, 但實際上沒有做用, 你將拷貝的是一個指向被刪除文件的符號連接:
ls -l /proc/5317/fd/4 lr-x—— 1 root root 64 09 15:00 /proc/5317/fd/4 -> /root/testfile (deleted) 使用cp -a命令測試恢復
cp -a /proc/5317/fd/4 testfile.backup 使用ls命令來查看
ls -l testfile.backup lrwxrwxrwx 1 root root 29 09 15:02 testfile.backup -> /roor/testfile (deleted)
經過上面的命令咱們發現,使用cp -a命令,其恢復的是一個指向被刪除文件的符號連接
使用file命令分別查看文件和文件描述符
1.查看文件 file testfile.backup testfile.backup: broken symbolic link to '/root/testfile (deleted)' 2.查看文件描述符 file /proc/5317/fd/4
/proc/5317/fd/4: broken symbolic link to '/root/myfile (deleted)' 根據上面的file結果,可使用cp拷貝出文件描述符數據到一個文件中,以下:
cp /proc/5317/fd/4 testfile.new 使用上面的命令恢復後,咱們須要最終確認一下文件是否恢復,以及文件內容是否正確:
ls -l testfile.new 而後把新舊的兩個文件對比
diff testfile.new myfile.backup