前言:安全
平安城市已是一個關係你我他的民生工程,但因爲自己系統的複雜性,給運維工做帶來了極大的挑戰。如何保障攝像頭在線率?如何在系統中找到視頻系統故障的問題所在?在咱們某一次項目經歷中,APM在發現問題,定位故障等方面,起了很大做用,幫助咱們順利的定位到了系統的故障所在。服務器
平安城市是一個特大型、綜合性很是強的管理系統,不只須要知足治安管理、城市管理、交通管理、應急指揮等需求,並且還要兼顧災難事故預警、安全生產監控等方面對圖像監控的需求,同時還要考慮報警、門禁等配套系統的集成以及與廣播系統的聯動。網絡
處於平安城市系統核心地位的視頻監控系統,架構複雜。組成系統有成千上萬的高清攝像頭、數以千計視頻系統、數以百計的卡口系統、以及背後複雜的存儲和管理系統;同時橫跨多種網絡,包括4G,以太網,光纖網。攝像頭在線率,隨時隨地迅速調取視頻,就是整個視頻系統成效的關鍵指標。架構
最近接到客戶反饋,視頻網看起來挺正常,監控看到攝像頭在線率也挺好,各個市級子系統檢測結果都挺正常,但就是打開視頻很慢。接到狀況,優雲立刻組織了技術人員前往。併發
>>>>業務請求跟蹤,什麼慢?運維
在初步瞭解後,咱們對視頻應用平臺總體結構進行了梳理,整個應用平臺分紅兩個層次,省級和各個市級,多達十幾個個子系統,這裏咱們介紹一下主要的架構,而且選定關鍵路徑偵聽鏡像。高併發
經過安裝部署APM,跟蹤觀察省級SIP信令,橫向綜合比較請求多維度信息。咱們發現成功率和響應時間與請求量存在明顯的關係,當請求量上升時,系統成功率大幅降低,而響應時間大幅上升。省級SIP請求次數與成功率、響應時間的變化關係以下圖所示:視頻
>>>>單次業務鏈跟蹤,哪裏慢?blog
在發現了請求響應遲緩以後,咱們進一步用APM單筆跟蹤功能,跟蹤單一次SIP請求過程,發現大量的錯誤和時延,肯定最終錯誤根源在某市級SIP服務器,即省級向市級發起SIP調用過程,市級返回錯誤,調用失敗。ip
從一次攝像頭視頻請求的過程來看,從省級發起視頻請求,到返回,市級SIP服務器響應時間過長。
>>>> 模擬分析,爲何慢?
到目前爲止,問題基本上鎖定在市級的SIP服務器一端。咱們對市級的兩萬多攝像頭巡檢。發現成功率4.4%,有返回,可是錯誤返回9.6%,無返回超時86%。
從市級SIP服務器指令監控結果來看,一樣發現成功率和響應時間與請求量存在明顯的關係,當請求量上升時,系統成功率大幅降低,同時響應時間大幅上升。甚至有到1分鐘以上。
是什麼緣由致使了市級的服務器在處理連續請求,僅僅響應了部分請求以後就連續報出錯誤信息?咱們分析了市級SIP服務器的每次響應的時間和狀態關係,最終發現高併發的狀況下SIP服務器沒有正確結束請求,釋放資源,致使不能繼續處理後續的請求。
事情終於有了一個結果,但對運維探索卻纔剛剛開始。因爲通常客戶的視頻系統大量的採用了虛擬化,雲化系統建設,使得傳統運維,定點監測的方案在當前的系統架構下已經不能徹底勝任。運維如何跟上業務系統的敏捷開發的腳步?得益於優雲前瞻的運維方案,快速的、敏捷的,動態跟蹤用戶的軟件架構,有效的幫助定位和解決問題。
做者:劉成穆 就任優雲軟件資深架構師