一次線上GC問題排查

發現問題 早上還沒到公司就收到短信告警,提示訂單接收接口頻繁報錯. 立即介入看告警信息,一般都會拿到報錯的基本信息,例如堆棧或則關鍵日誌等等查看錯誤日誌量。 這裏初步從八點開始發現錯誤在變多,然後查看峯值最高的時間段的異常日誌。發現一個很關鍵的信息lock wait. 這初步說明是DB的鎖超時導致的接單報錯。 這個時候查看整個集羣的信息,很多機器已經出現飆紅的情況。 CPU的負載非常高,我們嘗試重
相關文章
相關標籤/搜索