沒有天下第一的武功,但若是你的速度夠快(好比接近光速),必然無敵。html
11 月 20 日晚,深圳龍崗愛聯愛新小區裏的 54 輛私家車被刮花,等到車主們調取監控錄像後才發現,竟是 4 名年齡都不超過 10 歲的「熊孩子」拿着石塊把小區裏的車輛當成了畫畫的面板。目前,愛聯派出所已介入調查,熊孩子到底是誰仍在覈查中。服務器
由刮車事件引起的聯想......微信
「咱們以爲這件事主要仍是家長監管和平時教育不到位,而且事發已經好幾天了,也沒有人主動出來承擔責任。」車主李先生表示,小區裏過半車倆被刮花,修理費用加起來已超過了15萬元,並且因爲是人爲損壞,保險公司不會理賠,你們都但願這件事能有個結果。「若是此次不弄清楚,擔憂之後還會出現相似的狀況。」事發後業主們紛紛討要說法。網絡
事雖小,但出現的問題很發人深思:監管、監控不到位,致使羣體悲劇上演。若是能在孩子身上放一個相似監控器的東西,當孩子刮第一輛寶馬車或者將要作出刮車的這個動做時就能夠受到制止,又或者車輛內有足夠強大的告警系統,當受到侵害時就可以第一時間傳達給車主或者鳴響報警,那結果是否是壓根兒就不會這麼嚴重呢?!運維
說多了,讀者該嘲笑我異想天開了。但今天我想說的是,隨着企業業務發展的深刻,IT 系統也日益複雜。公有云、私有云大規模應用,網絡、服務器、軟件應用系統之間錯綜的關聯關係,使得 IT 管理和運維人員面對最終用戶反映的應用不穩定、系統中斷等問題時,沒法快速準確的定位問題根源,讓企業數據中心的管理和維護面臨史無前例的挑戰。不少企業正是因爲沒有作到全方位的監控又或者是告警後沒有及時作出有效的補救措施才致使以點到面的受到大批量不可修復的災難,而 IT 世界裏受到的損失可就不是單純的6位數字那麼簡單了。性能
放眼全球,規模和成熟度都很強大的亞馬遜、谷歌、Facebook,國內的 BAT 等企業,IT 故障也會頻發。全球500強企業裏 IT 故障引起的損失也是很常見的,每次故障帶出的直接或是間接性的災難更是巨大:測試
全球500強故障影響統計htm
常見的場景:數據服務器在晚間自動備份,引起磁盤空間不足故障,同時關聯的應用程序引起故障,從而引起雪崩。2:00監控發現故障,並郵件通知運維一線楊過,然並卵過兒同窗在甜蜜夢鄉中,直到6點用戶投訴,過兒接到老闆小龍女的電話,纔開始響應處理故障。 事件
咱們能夠從以上場景中看到,該公司沒有創建起有效的值班響應機制,首先沒有分派通知到位(郵件不靠譜,電話才靠譜),其次沒有造成多人同時支撐的值班流程。及時發現問題,並不意味着可以及時響應。開發
那麼如何有效提高 IT 可靠性,將成爲各企業 IT 支撐的重點。本質上來講,應該是及時發現、及時通知值班、及時處理,最終提高IT可靠性,因此須要一個靠譜的告警平臺幫助他們解決上述全部問題。
好吧,鋪墊這麼多,咱們也是想作一個小小的廣告!下面這位就是廣告的「主角」OneAlert ,它可以接收 IT 運營支撐過程當中的告警事件,在一個平臺上有序、更快的解決告警,讓業務更可靠。爲了實現這點,OneAlert 還引入告警壓縮機制,減小告警數量;並經過多種渠道+自動升級的方式實現通知必達,不遺漏一個告警。
當管理服務器和應用服務規模較大,通常根據用途或者管理職責不一樣,分配和提醒不一樣運維負責人。
一線、二線自動化升級,能夠根據企業的值班響應要求,設置自動化升級的時間間隔。例如,若是要求10分鐘內必須響應故障(確認故障),那麼應該設置爲5分鐘自動化升級。例如一線能夠是運維人員,二線是相關測試或開發,三線爲主管等。
一線的人員,能夠設置爲具體的人,也能夠是一個排班。排班是指一組成員經過周、日、小時輪值的方式進行值班,有序分發找對人。
多渠道通知,總有一種方式打動你。微信、短信、電話、郵件、以及即將推出的 APP。平常過程當中,微信的應用已經深刻人心,在方寸屏幕中實現告警確認跟蹤。在夜深人靜、深刻夢鄉時,電話總能第一時間通知到達。
注意,這裏的傳達是指整個團隊,從技術手段和團隊協做管理手段多重冗餘的角度實現。這樣下來,咱們不難把握全部的 IT 事件,並有序跟蹤、創建起 7x24 on call 運維響應機制,IT 事件有序分發、有效通知、協做處理。下降故障恢復時間 MTTR,最終提高 IT 可靠性,即「天下武功無堅不破,惟快不破」,讓現實中的悲劇再也不重演。
OneAlert 是應用性能管理領軍企業 OneAPM 公司旗下產品,也是國內首個 SaaS 模式的雲告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理全部IT事件,提高IT可靠性。想了解更多信息,請訪問 OneAlert 官網 。