京東自建數據中心核心技術解密——運營管理篇

隨着電子商務、雲計算、大數據、人工智能、互聯網金融等應用的快速發展,數據中心單體規模愈來愈大、系統愈來愈複雜,應對的挑戰也愈來愈多。數據庫

一個好的數據中心須要經過科學的運維管理,充分利用技術和設備資源,將運行成本降到最低,同時能源利用率最大化。安全

京東在宿遷的自建數據中心,按照世界一流數據中心的理念設計和建設,也按照國際先進的運營管理模式投入運行。服務器

做爲數據中心生命週期中最重要的一環,如何針對基礎設施,各類IT設備,信息與數據,應用軟件等各方面展開數據中心的運維管理,爲基礎設施和信息系統提供穩定可靠的運行環境,確保他們安全,穩定,可靠,持續並高效的運行。網絡

京東IDC建設的技術專家們,設計並落地了一套先進的、可靠的智能化基礎設施運維管理體系,進行系統性的支撐。架構

接下來的內容,咱們將經過京東自建數據中心在運營維護中的人,制度,流程規範,監控管理等各個方面,一窺這裏是如何高效知足京東不斷增加的業務需求。運維

1人

京東IDC建設部技術專家劉銘談到:人是數據中心IT設施運維管理的基礎,也是管理的核心,正所謂是三分靠技術,七分靠管理。京東在宿遷的自建數據中心,設施運維管理核心團隊組建於數據中心建設初期,主要的專業技術管理人員都深度參與了整個數據中心園區的工程建設以及測試驗證等重要環節。模塊化

在數據中心交付以前,他們就已經充分的瞭解這個數據中心基礎設施系統的構成,掌握了數據中心設計、施工、變動、整改的技術文檔和測試數據,哪些是從此運維工做的特別關注點,都熟記於心。測試

京東自建數據中心的實施運維團隊主要有兩大工做職能。第一個是實行7*24小時輪崗工做制的運維巡檢團隊,他們對基礎設備設施進行巡檢,第一時間發現故障或問題。大數據

第二個是對數據中心基礎設施提供運維技術支持,解決技術問題的技術管理團隊,他們承擔數據中心場地基礎設施的優化改造工程和項目管理工做,也是運維管理的核心團隊。優化

2制度

設備臺帳制度

給每一個獨立的數據中心模塊創建完整並實時更新的設備臺帳。臺帳包括全部關鍵基礎設施設備的清單,並完整記錄這些設備設施的運行狀況、事件狀況、變動狀況、維護保養頻次等信息。

對影響安全運行的關鍵設備,好比UPS、冷水機組、精密空調等的設定參數以及關鍵點的報警閥值制定了統一管理制度,結合數據中心實際運行狀況與技術,討論後按統一參數值設定,運維巡檢人員不能夠隨意修改。

預防性維護計劃

爲了延長設備的使用壽命,減小設備故障的機率,必須對全部設備設施進行有計劃的維護。提早制定月度、季度、年度的預防性維護計劃。

運維人員會按照設備和系統的特性、維護流程及規範,及時、完整的落實維護工做,並造成客觀實際的記錄和報告存檔。

此外,運維團隊還按期對設備運行狀態的數據進行統計和趨勢量化分析,對於異常的趨勢,及時做出報警和相關預案。

經過按期檢查和保養,使得設備設施的某些缺陷或隱患在變得更嚴重以前被發現。

維修工單制度

運維人員在接到工單時,能明確獲悉工做任務與注意事項,提早熟悉操做流程,作到心中有數。在維修操做過程當中,工單也能夠起到指導操做的做用;在維修工做結束交單、備案歸檔。若是在維修過程當中遇到困難,也便於及時經過上溯的渠道,快速解決問題。

3監控

京東在宿遷的自建數據中心園區中,包含有4個數據中心模塊,每一個模塊都配置有一個獨立的監控中心,整個園區中心位置設置了綜合監控中心ECC。

圖片描述

京東自建數據中心核心技術解密——運營管理篇

ECC的綜合智能監控管理平臺,能夠實現對數據中心各設備和系統的統一監控與管理,提升整個系統的運行可靠性、穩定性和擴展性,實現機房的科學管理。

做爲園區級的監控平臺,ECC很好的實現了:

一、可視化展現各設備設施實時狀態,實時掌握可用性情況;

二、業務流程規範化管理,變動風險管控,下降變動帶給業務的影響;

三、復瑣事件分析處理,準肯定位故障;大數據分析,智能預警;

四、設備部署合理化,平衡各維度容量綜合利用率,避免單項容量短板;

五、可視化容量管理,直觀展現容量使用狀況及趨勢分析,擴容決策及時準確;

六、提供多維度運行分析報告,爲運營決策提供數據支持;

七、重大故障可實時準確提供數據中心應急預案;

模塊級的監控系統對基礎設施的監控包括電氣,動力,環境三部分,實時進行監測和展現被監控的設備。

系統的架構包含現場設備的數據採集層、現場設備監控層和集中監控層。

現場設備數據採集層:由各類I/O採集模塊組成,鏈接全部傳感器和被監控設備,實現監控平臺與被監控對象的數據通信。全部硬件採用模塊化架構,I/O模塊採集傳感器數據後,經過系統配置實現對全部傳感器的數據匹配對應,直接接入現場監控層。

現場設備監控層:由多臺嵌入式服務器或獨立網絡控制器組成,負責收集與處理由現場設備採集層發送過來的數據。

模塊集中監控層:採集現場設備監控層上傳的數據,對模塊內的現場監控服務器進行集中管理,實時監測組內基礎設施的參數、狀態,並提供遠程瀏覽。在這個模塊中的監控數據,能夠直接上傳至園區綜合監控中心ECC的綜合監控層。

集中管理平臺配置了「雙服務器+雙數據庫」,實現容錯配置。也開發了移動終端操控平臺,能夠對數據中心的基礎業務進行實時操控。

京東IT資源服務部負責人呂科說:「京東自建數據中心的設施運維管理有一個很是重要的目標,那就是要「創建一套持續改進的機制」,這一點每每容易被行業從業人員所忽略。數據中心設施運維管理與數據中心設施系統建設階段的項目管理有很大的不一樣,項目管理是一次性的,必須保障「當前最佳」。而數據中心運維管理則是一個不斷迭代的過程,「一套持續改進的機制」能夠保障數據中心運行效率不斷提升、運行成本不斷下降。數據中心的設施運維工做就是這樣一個不斷優化的過程,這也是咱們的目標:沒有最好,只有更好。」

相關文章
相關標籤/搜索