叮鈴鈴~
「客戶又投訴了!仍是投訴網絡慢,快查查是怎麼回事!」
「好的,立刻排查!」
王亮放下電話當即展開對整個數據中心網絡的排查,心想,這已是這個月第3次接到這個客戶投訴了,每次都是投訴網絡慢,但緊急排查以後卻又沒有發現任何問題,這是怎麼一回事呢?
王亮做爲一名運維工程師,任職於西北某省中國移動公司雲數據中心(後簡稱「數據中心」),數據中心肩負着全省衆多機關單位的託管業務,王亮做爲運維團隊的一員,工做中最大的困擾就是接到客戶投訴,卻又沒法排查出故障所在。
偶然一次關於公有云運維的技術論壇上,王亮接觸到了明辰智航雲安網絡與虛擬化性能管理系統,經過與明辰智航雲安團隊的交流,試探的提出了此前困擾數據中心運維團隊數月的問題,諮詢該問題是否可以獲得解決,令王亮沒想到的是,明辰智航雲安團隊立刻就爲數據中心開展了測試部署,將常接到投訴的應用拉到同一個服務組,並與王亮約定一週後能夠查看結果。
通過一週的數據採集後,部署的明辰智航雲安收集了足夠的數據,並針對性的爲數據中心進行了故障診斷。測試工程師進入明辰智航雲安的操做界面,點擊進入應用服務組,查看應用拓撲圖,發現Web-server03服務器出現了紅色示警,而且WebServer03與APP-LB-1外部網絡通訊也一樣出現了紅色示警:
測試工程師接着點擊紅色示警的服務器WebServer03進一步查看,服務器詳細界面中http服務出現了應用程序響應時間過長的問題:
點擊紅色示警的http進一步查看根本緣由,在根本緣由界面中,顯示根本緣由與CPU、內存、存儲有關係的可能性爲0%,與應用程序中http由WebServer03提供有關係的可能性爲50%:
服務器
同時在應用交互信息界面中,部分客戶端在與服務器WebServer03經過http服務交互過程當中,應用程序響應時間過長,而且每次針對與同一請求都出現響應時間過長的狀況,且請求迴應均可以經過:網絡
② 服務器紅色示警,應用程序響應時間過長;
② 根本緣由應用程序中http由WebServer03提供有關係;
③ 應用程序每次針對同一請求都出現響應時間過長的狀況,且請求迴應均可以經過。
結合以上三點,測試工程師判斷問題多是出在客戶應用程序上,故障點初步肯定!
明辰智航雲安隨即通知王亮故障診斷結果,王亮喜出望外,立刻經過數據中心將明辰智航雲安的診斷數據記錄發送給客戶,客戶工程師根據數據記錄檢查,最終找到問題確實出在了應用程序代碼上,修正後,網絡慢的問題終於被解決了!客戶方工程師表示很是驚訝,一直追問是如何找到問題所在。王亮露出了釋然的笑容。
在公有云運維中,因爲應用程序形成的故障時有發生,而常規手段的排查運維人員很難具體判斷出故障所在,從而致使沒法進行責任劃分。
運維人員可經過明辰智航雲安直觀的看到整個公有云環境的健康狀態,經過簡單的鼠標點擊就能夠進一步查看紅色示警信息的根本緣由;其中應用拓撲圖能夠清晰的展示各服務器應用之間的聯繫和狀態;應用的交互信息界面則記錄了每一個交易請求的響應狀況,爲公有云運維責任劃分提供強有力的證據。
通過這次與明辰智航雲安的接觸,數據中心的王亮真誠的說道,「在咱們團隊平常運維中,如何進行責任劃分,是困擾了你們好久的問題,咱們迫切的須要一款像明辰智航雲安這樣能快速定位故障,並明確進行責任劃分的運維管理系統。」運維
——入運維苦似海,手沒法器難稱佛。
想要雲運維,就要有云安!ide