原文:https://mp.weixin.qq.com/s/z8j-UMLuRdBfffYDjVt5lQmysql
一個妹子在一臺生產服務器上安裝 Oracle,妹子邊研究邊安裝,感受裝的不對,準備卸載從新安裝。sql
從網上找到卸載方法,其中要執行一行命令刪除 Oracle 的安裝目錄,命令以下:數據庫
rm -rf $ORACLE_BASE/*
若是 ORACLE_BASE 這個變量沒有賦值,那命令就變成了:服務器
rm -rf /*
等等,妹子使用的但是 Root 帳戶啊。就這樣,把整個盤的文件所有刪除了,包括應用 Tomcat、MySQL 數據庫 and so on......工具
MySQL 數據庫不是在運行嗎?Linux 能刪除正在執行的文件?反正是完全刪除了,最後還剩一個 Tomcat 的 Log 文件,估計是文件過大,一時沒有刪除成功。測試
看着妹子自責的眼神,又是由於這事是我安排她作的,也沒有跟她講清厲害關係,沒有任何培訓,責任只能一我的背了,何況怎麼能讓美女揹負這個責任呢?google
打電話到機房,將盤掛到另外一臺服務器上,SSH 上去查看文件所有被清,這臺服務器運行的但是一個客戶的生產系統啊,已經運行大半年了,得儘快恢復啊。spa
因而找來脫機備份的數據庫,發現備份文件只有 1KB,裏面只有幾行熟悉的 mysqldump 註釋(難道是 Crontab 執行的備份腳本有問題),最接近的備份也是 2013 年 12 月份的了,真是屋漏偏逢連夜雨啊。.net
想起來一位領導說過的案例:當一個生產系統掛掉之後,發現全部備份都有問題,刻錄的光盤也有劃痕,磁帶機也壞了(一個業界前輩,估計之前還用光盤作備份了),沒想到今天真的應驗到個人身上了,怎麼辦?rest
部門領導知道狀況後,已經作了最壞的 B 計劃:領導親自帶隊和產品 AA 週日趕到客戶所在的地市,星期一去領導層溝通;BB 和 CC 去客戶管理員那邊想辦法說服客戶......
救命稻草:ext3grep
趕快到網上去查資料進行誤刪數據恢復,還真找到一款 ext3grep 可以恢復經過 rm -rf 刪除的文件,咱們磁盤也是 ext3 格式,且網上有很多的成功案例。
因而燃起了一絲但願,趕快對盤 umount,防止從新寫入補刪文件扇區。下載 ext3grep,安裝(編譯安裝過程艱辛暫且不表)。
先執行掃描文件名命令:
ext3grep /dev/vgdata/LogVol00 --dump-names
打印出了全部被刪除文件及路徑,心中狂喜,不用執行 B 計劃了,文件都在呢。
這款軟件不能按目錄恢復文件,只能執行恢復所有命令:
ext3grep /dev/vgdata/LogVol00 --restore-all
結果當前盤空間不足,沒辦法只能恢復文件,嘗試了幾個文件,竟然部分紅功部分失敗:
ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/aqsh/tb_b_attench.MYD
內心不由一涼,難道是刪除磁盤上被寫過文件了?恢復機率不大了啊,能恢復幾個算幾個吧,說不定重要數據文件恰好在能恢復的 MYD 文件中。
因而先將全部文件名重定向到一個文件文件中:
ext3grep /dev/vgdata/LogVol00 --dump-names >/usr/allnames.txt
過濾出來全部 MySQL 數據庫的文件名存成 mysqltbname.txt。
編寫腳本恢復文件:
while read LINE
do
echo "begin to restore file " $LINE
ext3grep /dev/vgdata/LogVol00 --restore-file $LINE
if [ $? != 0 ]
then
echo "restore failed, exit"
# exit 1
fi
done < ./mysqltbname.txt
執行,大概運行了 20 分鐘,恢復了 40 多個文件,但不夠啊,咱們將近 100 張表,每張表 frm,myd,myi 三個文件,怎麼說也有 300 多個左右啊!
將找回來的文件附到現有數據庫上,更要文件權限爲 777 後,重啓 MySQL,也算是找回一部分數據了,但客戶重要的考勤簽到數據、手機端上報數據(聽說客戶按這些數據作員工績效的)還沒找回來啊。
咋辦?中間又試了另外一款工具 extundelete,跟 ext3grep 語法基本一致,原理應該也同樣了,可是聽說能按目錄恢復。
好吧,試一試:
extundelete /dev/vgdata/LogVol00 --restore-directory var/lib/mysql/aqsh
果真不出所料,恢復不出來!!!!!!!!那些文件已被破壞了。跟領導彙報,執行 B 計劃吧......無奈之下下班回家。(週末了,回去休息一下,想一想辦法吧)
靈機一動:Binlog
次日早晨一早就醒了(內心有事啊),背上電腦,去公司(這個週末算是報銷了,不挨批,通報,罰款,開除就不錯了,還過什麼週末啊)。
依舊運行 ext3grep,extundelete,也就那幾招啊,把系統架到測試服務器上,看看數據能不能想辦法補一補吧。
在測試服務器上進行 mysqldump,恢復文件,覆蓋恢復回來的文件,給文件加權限,重啓 MySQL。
Wait,Wait,不是有 Binlog 嗎?咱們服務都要求開啓 Binlog,說不定能經過 Binlog 裏恢復數據呢?
因而從 Dump 出來的文件名裏找到 Binlog 的文件,一共三個:
mysql-binlog0001
mysql-bin.000009
mysql-bin.000010
恢復一下 0001:
ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/mysql-bin.000001
竟然失敗了......再看另兩個文件,mysql-bin.000010 大概幾百 MB,應該靠譜一點,執行還原命令,竟然成功了!
趕快 SCP 到測試服務器。執行 Binlog 還原:
mysqlbinlog /usr/mysql-bin.000010 | mysql -uroot -p
輸入密碼,卡住了(好現象),通過漫長的等待,終於結束了。打開應用,哦,感謝 CCTV,MTV,數據回來了!
後記
通過這次事故,雖然數據很幸運找回來了,可是過程倒是驚心動魄。也爲本身的錯誤所帶來的後果,給同事和領導帶來的連帶責任然後怕。
也但願謹記這次事故,之後再也不犯一樣的錯誤。事故反思以下:
本次安排 MM 進行服務器維護時沒有提早對她進行說明厲害狀況,本身也未重視,管理混亂,流程混亂。一個在線的生產系統,任何一個改動必定要先謀然後動。
自動備份出現問題,沒有任何人檢查。脫機備份人員每次從服務器上下載 1K 的文件卻從未重視。須要明確你們在工做崗位上的責任。
事故發生後,沒有及時發現,形成部分數據寫入磁盤,形成不可恢復問題。須要編寫應用監控程序,服務一旦有異常,短信告警相關責任人。
根據評論提醒,再加一條:不能使用 Root 用戶來操做。應該在服務器上開設不一樣權限級別的用戶。
經過本次事故,幾位跟這個項目和事故沒有任何關係的同事,主動前來幫忙,查資料,幫測試,有一位同事還幫忙到晚上 1 點多鐘進行數據恢復測試。
同時產品經理在想到面向客戶的巨大壓力的狀況下,沒有慌亂而責怪開發人員和具體操做人,而讓你們能靜下心來想解決方案。
部門領導也積極主動的幫忙想辦法,陪咱們加班測試,實時跟蹤事情進程。經過你們的共同努力,終於事情相對圓滿結束,接下來,週一上午進行集體反思,總結經驗教訓,這類事故必定盡最大努力進行避免。
本文所用到的工具連接:
①ext3grep:https://code.google.com/p/ext3grep/
編譯安裝依賴包比較多,能夠到網上搜索如何安裝。惋惜的是做者給出的 howto 被牆了,我 FQ 將 howto 的 pdf 文檔下載下來了,讀完後你將會對 Linux 的文件系統有進一步的認識。
這個工具備一個 Bug,出錯後不會向下執行:
ext3grep: init_directories.cc:534: void init_directories(): Assertion `lost_plus_found_directory_iter != all_directories.end()' failed.
從而形成恢復失敗,做者放出了一個補丁,下載地址:補丁下載。不明白爲何做者新版沒有把這個補丁加進去。
②extundelete:http://extundelete.sourceforge.net/
功能跟 ext3grep 差很少,原理應該也差很少。只是號稱能夠還原目錄,我這裏沒有試驗成功。