大數據團隊負責不少公司核心服務,包括olap查詢、隊列、日誌搜索、數據傳輸、存儲、計算等等服務,做爲公司數據傳輸和存儲及計算的中樞,服務的穩定性直接影響用戶口碑和體驗,間接影響着公司的營收,線上服務的穩定性是每位同窗須要重點關注的事情。固然線上服務發生故障,作技術每位同窗幾乎都會遇到,也是做爲技術RD成長中常常要經歷的事。從故障中咱們能夠吸收到不少教訓,變得愈來愈有經驗,把咱們的服務作得愈來愈穩定。可是並非每個團隊/技術同窗在應對故障的處理方式上,都能作到合理和科學地迅速止損,把業務影響和損失降到最小。那咱們該如何作呢?才能讓咱們工做作得更好呢?下面流程圖和詳細步驟就是咱們要具體作得工做。html
不論是收到報警信息,仍是業務用戶反饋大數據組提供的服務有問題,咱們都須要進一步確認驗證集羣是否正常提供服務,確認的同時通知用戶咱們正在跟蹤處理,讓用戶放心。收到反饋經過如下指標項迅速判斷,發現大數據集羣可能遇到的問題數據庫
系統監控指標:緩存
集羣監控指標:網絡
用戶服務指標:運維
集羣可能出現問題,示例以下jvm
中間件層面監控(數據庫、緩存、消息隊列、存儲):大數據
確認故障後,迅速拉羣,把上下游用戶及本身項目負責人、部門負責人都加入進來,簡要整理下內容,告知用戶當前狀況及解決預案或方案,不要給用戶感受忽然或帶來驚訝,讓用戶有心理準備,留好buffer時間作好應對措施。若是不能及時解決,不要等待或死磕問題,請迅速聯繫本身的老闆尋求支持和幫助(也能夠請求能幫助本身的同事加入)。ui
故障確認後,首要作的就是故障止損和恢復,恢復經常使用手段以下:spa
寫casestudy原則:並非全部故障都須要寫casestudy,原則一若是咱們服務能快速恢復且對用戶部門影響很小,就不用寫。原則二由各個服務SLA肯定是否編寫casestudy3d
故障發生時間:
故障報告時間:
故障恢復時間:
故障持續時間:
故障影響範圍:
故障等級:PN
PN故障處理人:xxx、xxx、xxx
故障責任人:xxx
故障描述:xxx
故障處理過程:xxx
故障緣由分析:xxx
故障總結:xxx
後續改進工做:xxx 改進任務列表(任務、執行人、Deadline)
|
邀請參與人員:用戶表明、集羣服務負責人、部門負責人、部門相關同事
注意:review&覆盤後,發送郵件給用戶部門,P0故障同時抄送CTO
根據當前存在的問題制定出一套流程不難,難在對流程執行的跟蹤和監督。所以每一個故障Action都是可執行的,且有明確的執行人和Deadline,跟進故障casestudy中改進工做列表進展狀況,及時closed任務。隨着故障管理標準化創建和規範化,通過一段時間的積累,會沉澱一些寶貴的故障數據,爲系統改進方向提供了參考,也加強了夥伴們的故障意識,避免小夥伴不會犯同類型故障,對線上環境的敬畏之心和對故障的緊急處理意識。
以上工做作完後,就要對運維文檔查漏補缺進行完善了。大數據團隊每一個系統或方向的小組人數多寡有差別,多的有4人,少的可能只有1人負責。人都有打盹或休息/休假的時候,本身不能處理或外出,其餘人能夠根據運維文檔,根據故障經常使用恢復原則進行緊急處理。