生產事故!線上四臺機器同一時間全部 OOM

  案發現場 昨天晚上突然短信收到 APM (即 Application Performance Management 的簡稱),我們內部自己搭建了這樣一套系統來對應用的性能、可靠性進行線上的監控和預警的一種機制)大量告警 畫外音: 監控是一種非常重要的發現問題的手段,沒有的話一定要及時建立哦 緊接着運維打來電話告知線上部署的四臺機器全部 OOM (out of memory, 內存不足),服務全
相關文章
相關標籤/搜索