大型集團企業中,集團旗下各公司一般會獨立建設數據中心以及一系列的IT運維繫統。算法
隨着IT技術的發展,運維需求愈來愈多樣,運維繫統的架構也愈來愈複雜,各公司分別獨立建設運維繫統的技術和成本要求愈來愈高,所以愈來愈多的大型集團企業開始轉變思路,考慮建設集團統一的一體化運維繫統。shell
本文將介紹大型集團企業如何引入互聯網理念和技術打造一體化運維繫統,爲實現信息化、數字化轉型奠基基礎。設計模式
通常大型集團企業會根據業務板塊、地域或者收併購的方式在旗下設立多個公司或事業部,每一個公司或事業部下又會設立多個子公司或子事業部,每一個公司或事業部相對獨立的運營某塊業務,但彼此之間也有着緊密的聯繫,以下圖所示:安全
因爲每級組織的每家單位都承擔着獨立的業務職責,每家單位都有自主建設IT系統的權限,所以通過多年的運營集團旗下的單位可能都建設了一個或多個IT數據中心,運行着大量的IT基礎設施、業務類系統。服務器
爲了保障各級單位的IT基礎設施和業務系統的穩定、高效和安全運行,集團旗下各級單位通常還會分別獨立規劃、建設一整套的IT運維繫統。例如,下圖所示的安全和運維支撐類系統:架構
從一體化管理、協同融合、數字化轉型角度出發,這種各級單位「煙囪式」、「分散式」的IT運維繫統建設模式主要存在以下問題:框架
系統多樣且架構複雜運維
因爲沒有進行統一規劃,各級單位多年以來獨立進行IT運維繫統的規劃和建設,已經累積了大量不一樣廠商、不一樣架構的運維產品或者各單位自建的運維繫統,每個單獨的運維繫統都負責解決該單位某一個方面的運維需求。機器學習
例如IT監控類系統中的服務器監控系統就可能包含微軟、惠普、IBM、中軟、北塔、Zabbix等多個廠商的產品。分佈式
系統之間難以橫向協同
因爲各種IT運維繫統的廠商、架構各不相同,彼此之間沒有接口進行協同交互,同時因爲各系統的數據規範和格式各不相同致使在數據方面也沒法有效統一。
例如,IT監控系統中的配置數據與ITSM中的配置數據差別性較大,沒法打通共享;IT監控系統自動採集的配置數據沒法自動匹配、更新到IT資產系統;各單位的安全設備及安全類系統廠商不一樣,所能提供的安全指標差別較大,致使公司層面沒法進行統一的安全指標展現和橫向對比。
運維數據質量差、沒法發揮價值
因爲各單位的IT運維繫統的數據沒有統一的標準規範,各項數據準確性、一致性較差,數據質量問題突出,而且難以推行統一的質量改進方案。
所以,也沒法基於各單位已有的運維數據進行分析、挖掘和應用,數據價值不大,沒法實現統一化運營。
系統建設和運維成本持續增長
因爲各單位的IT運維繫統獨立規劃、建設、部署和運維,隨着IT運維需求的複雜度逐步增長,更多數據化、自動化、智能化的運維需求不斷提出,且全部單位大部分的運維需求都相似。
若是各單位繼續獨立規劃建設運維繫統,將致使整個集團層面的整體系統建設、運維成本持續增長,存在大量的重複投資。
新技術運用良莠不齊
傳統的IT運維繫統技術落後,難以適應當前企業級應用快速開發、精細化管控要求。隨着新的互聯網技術的不斷涌現和成熟,各單位分別自行引入新技術,勢必將會形成大量的重複研究投入,而且技術應用程度良莠不齊。
基於對大型集團IT運維現狀的分析,爲了可以知足愈來愈複雜的IT運維需求,實現運維數字化轉型,須要大型集團化企業轉變運維繫統的建設思路,由本來的「煙囪式」、「分散式」的建設模式轉變爲「一體化」、「集中式」的建設模式,引入互聯網的新興技術和工具打造一站式IT運維業務「ERP」。
爲了知足複雜的運維需求,且兼具良好的擴展性,一體化IT運維繫統的總體設計思想以下:
平臺+應用模式:
IT運維功能全覆蓋:
統一門戶、集中部署:
先進技術架構:
通過對目前行業內的多種互聯網公司技術和平臺的研究對比,目前國內最早進、體系最完整的運維繫統架構當屬騰訊公司的研運一體化PaaS平臺——藍鯨平臺。
如上圖所示,藍鯨平臺是一套能適用於各類不一樣IT數據中心的多層次可擴展的研運一體化能力平臺:
IaaS層:可以支持企業傳統的數據中心、虛擬化、私有云、公有云、混合雲等各類IT基礎設施。
PaaS層:可以提供配置管理、容器服務、管控服務、大數據計算、大數據存儲、機器學習算法等先進的互聯網技術以及基於這些技術研發的配置平臺、做業平臺、管控平臺、容器平臺、數據平臺、開發框架等多種模塊化、可複用的能力。
基礎SaaS層:可以提供持續集成、發佈變動、故障處理、體驗優化、輔助運營、運營安全等多種IT場景中使用的應用系統和工具,知足企業IT在「持續集成-持續部署-持續運營」(CI-CD-CO)的全生命週期開發運營一體化的需求。
場景SaaS層:經過提供底層的開發運維能力和工具,可以支撐企業根據自身的需求構建各類複雜的、個性化的、知足特定場景的應用系統。
根據大型集團化企業的IT運維需求,結合先進的互聯網技術思路,能夠基於騰訊藍鯨平臺設計以下圖所示的一體化IT運維繫統架構:
系統由基礎平臺、運維場景應用、信息展示三部分組成
基礎平臺具有配置管理(CMDB)、公共組件、開發框架、做業服務、採控服務、數據服務等多種組件,爲場景應用提供開發、運行的環境和基礎能力。
運維場景既能夠支持集團根據全部單位共有的運維需求規劃構建統一的運維場景應用進行全集團共用,也能夠支持各級單位根據自身的運維需求構建個性化的運維應用獨立使用,支持靈活的擴展開發和發佈。
例如通用的ITOM應用、ITSM應用等,以及個性化的特定應用系統的自主巡檢和快速問題處置應用等。
信息展示能夠支持統一運維門戶、移動端運維入口、運維信息大屏等,提供面向全集團全部IT運維用戶和領導的信息展現和運維操做入口。
爲了實現全集團統一集中運維,減小各級單位的部署、運維成本,故規劃以下圖所示的部署架構,實現集團與各分子公司的數據、服務的互聯互通。
集團總部集中部署一體化IT運維繫統,面向全集團總部及各級單位的用戶提供訪問。
每一個分子公司部署本地代理服務器,實現對本地IT數據中心的基礎設施和應用系統的監、管、控,同時經過數據總線與集團總部的一體化IT運維繫統集成:
採集代理:
負責對各單位本地的基礎設施和應用系統的配置信息、關聯關係、性能信息、運行狀態等進行採集,並經過數據總線將採集信息上報到集團總部的採集中心,進而提供給各運維場景應用使用。
管控代理:
負責對各單位本地的基礎設施和應用系統進行操做控制,包括文件下發、命令執行等,與集團總部的管控中心協做,接受來自集團總部各運維場景應用的操做指令,如服務啓停、文件替換等。
數據代理:
負責接收各單位本地的基礎設施或者應用系統發送的各定義格式的運維數據,並經過數據總線將運維數據上報到集團總部的數據中心,提供給各運維場景應用分析或展現。
服務代理:
負責將集團總部的一體化IT運維繫統提供的API接口進行註冊、封裝、轉換提供給各單位本地應用系統調用,或者將各單位本地應用系統提供的API接口進行註冊、封裝、轉換提供給集團總部的一體化IT運維繫統調用。
近期筆者參與了國內某大型集團企業的一體化IT運維繫統的規劃和建設,該企業集團下轄10多家二級單位、200多家三級單位,在項目開展前每一家單位都分別建設了大量的IT運維繫統。
本次項目經過引入騰訊藍鯨平臺,基於「平臺+應用」的模式全新構建了一套全集團的一體化IT運維繫統,面向全集團全部單位數千名IT運維人員提供一站式IT運維綜合管理系統,並支持各單位基於該系統自主擴展個性化的運維場景。
該一體化IT運維繫統主體功能在集團總部集中部署,在二級和三級單位部署平臺本地代理,將各單位海量、明細的運維數據實時匯聚至總部進行統一存儲及應用。
該系統以CMDB爲核心,構建了IT監控、運維流程管理、自動化運維、IT呼叫、安全監測預警等場景功能,集監、防、管、控於一體,從技術上實現了安全、運維業務的全面融合。
同時,經過該系統的上線,該企業實現了從傳統手工運維、腳本運維向自動化運維、智能化運維的轉變,推動了運維工做的標準化、規範化和體系化,下降了運維成本,提高了運維部門價值。
做者:鮑勝全
往屆文章