關於問題解決與事件解決的思考

  那天忽然有人問我:問題解決和事件解決的區別。網絡

  今天恰好出了點問題,在解決完後,我忽然對這兩者有了更深刻的體會。運維

  舉個例子:事件

    若是因爲網絡中斷,致使服務不可用,那麼這就是一個時間,咱們能夠編號爲2017-09-13號事件,那針對這一次的事件,咱們可能經過重啓設備,排查具體端口映射,或者更換新設備等方式解決,那麼,在此次的事件中,咱們解決問題的過程,既能夠成稱爲是一次事件解決過程。部署

可是這裏咱們將面臨兩個問題:配置

      1.在迅速判斷出故障後,可否迅速修復問題?高可用

      2.整個故障恢復過程當中耗費的時間對業務形成的損失?硬件

--這就引出了一個核心店:運維的核心是保障業務的可用性端口

這就引出下面的問題解決方案。時間

仍以上例說明:思考

  在此次的事件解決中,咱們先是經過觀察現場環境、並逐一的對硬件、鏈路連通性、系統、服務等進行排查,最後確認故障是由網絡設備受損致使了服務不可用,而後咱們又開始花大量的時間用於判斷具體緣由並修復該受損設備,最終恢復服務的可用性;

可是,圍繞上面的一個核心店,咱們再來思考這兩個問題,就會發現,這樣的忽然事件處理方式必然是不可取的。那爲了不之後再出現這種狀況,咱們該怎麼辦?

  咱們是否是能夠部署一套新環境,作一個高可用的方案呢?一旦故障發生,咱們能夠實現手動或者自動,可是保證最迅速的切換到備用環境,從而維持業務正常使用。固然,考慮到成本問題,不少公司並不肯作大動做。那咱們可不可退而求其次,挑選整個環境中的幾分關鍵或故障頻發環節作有限度的冗餘?本例中徹底能夠事先準備一臺低端設備,可是預先配置好環境,這樣,一旦出現未知故障,咱們迅速的使用新設備直接替換;而待時間充分時再去研究具體緣由,如此又徹底不影響業務可用性,豈不兩全?  

    以上就是我對問題解決與事件解決的一點思考,隨筆記錄以備往後回顧。

相關文章
相關標籤/搜索