【編者按】本文做者爲 Sahil Khanna,文中介紹了現代企業經常使用的監控工具與模式,同時指出了其中的不足,以及更爲完善的解決方案。本文系 OneAPM 工程師編譯整理。運維
我喜歡參加行業活動和會議,由於在這些地方能夠見到財富 1000 強的 IT 領導人,並且我總喜歡問他們同一個問題——「大家都在使用哪些工具?」 這是個頗有趣的問題,由於從他們的回答中我發現,大型 IT 企業目前所使用的工具數量多得驚人,並且我問過的全部人都在使用不一樣的方式配置環境。ide
雖然大部分企業正在使用 Splunk、APPDynamics 或 NewRelic、OneAPM,可是他們使用這些工具支持業務服務的方式大相徑庭,這多是由於不一樣企業的每一項業務服務和出現的問題類型都徹底不一樣。下圖中的工具是我在數百遍的詢問中常常聽到的一部分:工具
我還喜歡問的第二個問題是——「你是怎樣把各個監控工具裏得到的信息聯繫起來的?」 從他們的回答中我發現兩個共同點,分別與傳統企業和數字化企業的監控配置有關,並且這兩個共同點解釋了一個更加嚴重的問題——爲何客戶老是比監控工具更早地發現問題。性能
我說的「傳統企業」,主要是指金融服務、管理服務供應商、製造業、電信公司和聯邦等企業組織。雖然你在看這篇文章的時候,它們可能正在經歷重大的數字化轉型,可是這些企業的 IT 環境、流程和許多工具實在是太「傳統」了,由於它們的工具基本上都購買於上個世紀末和本世紀初,當時 IBM、HP 和 CA 等 MoM 供應商爲運營管理整合了企業級套裝。這些套裝從概念上而言在當時很先進,但實際上只是各類不一樣層級的工具集成的「大雜燴」。它們能夠執行基礎的降噪和事件關聯,可是是經過基於規則的方式進行的,也就是說,你必須在問題發生前就預測到這個問題。能夠想象這種要求會產生怎樣的後果。並且,這些套裝還很難配置和管理,要想使它們正常工做,還得再投入幾百萬美圓和幾百個工時。blog
如今,轉眼到了 2016 年,這些工具依舊是傳統企業的核心 IT 管理層,究其緣由,是由「廠商鎖定」這個堪稱天才的商業策略致使的。雖然傳統企業已經認識到新一代監控工具的價值,也花了巨資購買最好的工具集來提高服務質量。可是,與這些企業的IT運維團隊交流時,我發現他們顯然沒有充分利用各個工具,而只是將一部分事件流發送至 IBM Netcool 或 CA Spectrum 之類的工具中供運維團隊查看。他們被迫使用很小一部分事件,只能得到有限的可見性,由於遺留 MoM 沒有如下功能:事件
1)擴展
2)集成新工具(沒有標準的 API)
3)自動適應基礎設施更改(須要手動創建或維護規則)開發
下圖是我最近交流過的一個大型傳統企業的監控圖示。get
他們有40多種監控工具、1000 多個應用程序,天天生成約 200,000 個事件。他們使用 CA Spectrum 做爲頂層管理系統,可是因爲可擴展性和集成的限制,Spectrum 天天只能從 Splunk、Keynote 和Solarwinds 接收約 30,000 個事件。也就是說,事件覆蓋率只有 15%!那這樣的配置是怎樣爲他們工做的呢?好吧,對此他們表示,只有 7% 至9% 的事件是工具檢測出來的,其餘的都是客戶發現的。你能夠想像這些企業面臨過多少次 SLA 違規、收入損失以及與日俱增的 IT 成本問題。博客
要想更深刻地瞭解和解決這個問題,推薦閱讀 Intellyx 的傑森•彭博寫的「受夠了遺留監控工具?該換成可組合的 IT 監控了!」。產品
我認爲,「數字化」就是軟件即服務(SaaS)、媒體、電子商務、零售、在線、獨立軟件開發商,等等。與傳統企業的關鍵不一樣點在於,這些公司從誕生起就是數字化的,並且從一開始就沒在遺留 MoM 解決方案上花過一分錢。這個特色使它們天生就具備靈活性和敏捷性,但同時也存在嚴重的缺陷。
我交流過的數字化企業爲了知足自身獨特的需求,一般都構建了一個龐大且最好的監控生態系統,可是卻沒有管理層將系統結合起來,如今他們開始感覺到如下問題的痛苦了:
1. 沒有重複數據刪除功能。可能你以爲刪除重複數據不重要,可是你得明白,即便事件總量只減小 25%,運維團隊的查看量也會減小 25%。這就大大減小了工做量,顯著提升了生產力。
2. 沒有關聯功能。若是沒有一個工具自動告訴你,有兩個或多個事件實際上與同一個問題相關,那麼你可能會讓不一樣的團隊獨自研究同一個問題,於是浪費了寶貴的時間。
雖然 IBM、CA、BMC 和 HP 的遺留工具須要繁重的人工勞動才能實現這些功能,可是沒有管理層的數字化企業則徹底與關聯功能帶來的益處失之交臂。
據我所見,數字化企業廣泛使用電子郵件充當管理控制工具。下圖是我曾交流過的一家數字化企業的監控示意圖。
該企業使用電子郵件做爲中央事件管理控制檯。因爲他們的支持團隊很小,因而決定天天只發送來自 SiteConfidence Sythetics 的 500個事件,至於其餘事件則所有忽略。這家數字化企業天天生成約 40,000 個事件,也就是說,他們只查看了約1%的事件。支持團隊會仔細查看最關鍵的事件,人工刪除重複數據並關聯事件或告警,而後再適當地挖掘其餘工具。可是這個過程極度耗費人力,並且又至關低效,最爲嚴重的是,他們缺少對整個 IT 環境的可見性。當被問到他們的監控工具是怎樣發現問題的時候,他們告訴我「大多數」事件都是客戶而不是工具發現的。
在某些特定狀況下,有些公司已經造成了本身的管理解決方案,可是我不多聽到它們的負責人表示對服務質量有絕對的把握。
次時代數據監控與管理工具,如 OneAPM Cloudinsight 產品,能夠幫助創業企業、服務提供商等實現最好的IT基礎組件與其餘數據監控,天天處理數十億事件,以得到整個 IT 環境的徹底可見性。從本質上而言,次時代監控管理工具能夠實現一體化監控與管理,可讓你經過標籤管理任意數據,機器,從而確保最優的服務質量和性能。
本文系 OneAPM 工程師編譯整理。想閱讀更多技術文章,請訪問 OneAPM 官方技術博客。
本文轉自 OneAPM 官方博客
原文地址:https://www.moogsoft.com/whats-new/todays-enterprise-failed-achieve-composable-monitoring/。