生產事故——磁盤使用率爆倉

時間 2021-04-04

標籤 docker bash 服務器微信運維 spa 日誌 code 內存 rem 欄目 Docker 简体版

原文原文鏈接

哈嘍哈嘍你們猴，我是把代碼寫成bug的大頭菜。公衆號：大頭菜技術(bigheadit)。原創不易，但歡迎轉載。

今天不知道爲啥醒得特別早，可能就是緣分吧。醒來一看微信，就發現線上的服務器的磁盤使用率超過70%，真是早起的鳥兒有bug修。。。。。docker

當時我就立馬跑去看看監控，看看cpu,內存,io這些是否都正常。看了一圈，發現除了磁盤異常外，其餘一切都正常。
bash

我當時是7點左右看到的消息，看到後，磁盤的使用率達到72%，超過了設定閾值70%。就如上圖的紅色箭頭所示。服務器

當時我是直接進入服務器，用df -h查看服務器的磁盤使用空間。
微信

看到上圖，當時我人都傻了。2.7T空間，而後使用才5%，哪來的70%磁盤使用率。運維

後來深呼吸，喝口冰水冷靜一下，發現，公司用的是容器，而df -h查的是物理服務器的磁盤空間。當時我狀況比較緊急，我也忘了什麼命令能夠查容器的硬盤空間。只好去谷歌輸入框輸入：「如何查看容器的磁盤空間」spa

很快，我就搜到相關命令：docker system df -v日誌

然而，等待個人倒是code

docker system df -v
-bash: docker: command not found

牛逼！！！牛逼！！！內存

好吧，看來是沒辦法經過命令查看哪一個地方用的磁盤空間比較大了。不過又比較緊急，只能用最笨的方法：遍歷查詢。可是這個遍歷，我優先遍歷查看日誌文件。沒想到一擊即中，立馬就找到了磁盤爆滿的根本緣由。
rem

你看，從2月25號日誌到如今3.21號的日誌都在，總共佔用了20G。我問了運維每臺容器分配30G。20G/30G=66.7%。單純日誌已經佔用磁盤空間的66.7%，再加上其餘的應用，佔用70+%。實錘了，找到真兇了。我也沒想到這麼快找到。

至於爲何我一開始就找日誌文件呢？

主要是由於經驗吧，由於以前別的服務器也出現過磁盤使用率問題，當時也是由於日誌文件問題。簡單總結一下，雖然經驗不老是可靠，但排查線上問題時，經驗又老是那麼有用。所以，排查問題時，一開始要根據監控數據，進行排查，不要先入爲主，用想固然去排查，就是不用經驗去想問題。先跳出固有圈子，根據實實在在的監控指標數據排查。實在沒辦法時，再用經驗去排查也不遲。

那麼如今咱們已經定位到磁盤空間問題的根本緣由：日誌文件佔用空間過多。