基於時序數據，推進智能運維發展

時間 2020-12-14

原文原文鏈接

基於IT 健康分析的智能運維新趨勢

隨着 IT 技術的發展與普及，各種信息化系統正日趨成爲工業製造領域不可或缺的基礎能力，推進着業務部門、工廠產線的高效運行，所以對信息化系統的高質量運維，是工業製造企業保持高效生產的關鍵。傳統上，企業 IT 運維是經過系統指標的變化，例如處理器 / 內存使用率、磁盤吞吐量等，由人工判斷系統是否存在問題與隱患。隨着企業信息化系統日趨多樣，加之軟硬件平臺再也不緊密耦合，單一系統可能存在多個廠商的硬件與服務，所以信息化系統的複雜程度正呈指數化增加，給工業製造企業的 IT 部門帶來了巨大的挑戰。算法

雖然許多企業已經部署了自動化的運維監控系統，並基於專家規則對異常指標進行告警，但這種藉助經驗構建的系統，沒法讓運維人員經過告警信息即時進行緣由分析。而經過專家後期採集、分析整套系統的數據，又每每須要很長時間。同時，因爲技術能力的差別，專家對監控指標的分析結論也會有差異，爲系統異常的及時甄別與處理埋下隱患。數據庫

在英特爾與南京基石數據技術有限責任公司（如下簡稱「基石數據」）看來，要根本解決這一問題，須要從運維生態入手，後端

針對設備日誌、運行數據等時序數據建模，創建「IT 健康分析」系統來發現存在的系統隱患，進而推送給運維部門或者專門的優化部門進行優化改進，並可以經過經驗積累實現自我優化。緩存

如圖 2-2-19 所示，藉助基於時序數據構建的「IT 健康分析」系統，企業一方面能夠及時發現系統隱患，並經過常態優化或架構優化來予以修復；另外一方面，模型也可對信息化系統的運維維保進行支撐，並經過運維經驗和最佳實踐的積累，來不斷自我完善和優化。而要構建這樣的系統，工業製造企業須要解決三個方面的問題。安全

引入高精度、高效率的智能分析模型做爲系統核心，減小運維繫統對人力，尤爲是對專家的依賴；
爲智能分析模型提供強有力的硬件基礎設施，特別是高性能計算力的輸入；
以合理的系統架構設計，保證充分的計算、分析能力能「下放」到運維一線。

基於以上分析，英特爾與基石數據首先引入 AI、大數據等技術，經過機器學習、深度學習方法來創建智能模型，對複雜的時序指標數據進行分析並判別系統的運行狀態。基於海量數據訓練出的智能分析模型，不只有着更勝於專家系統的準確率和效率，更能大幅減小運維工做所需的人力，提升運維效率。一項統計數據代表，經過智能模型來預測系統狀態變化，工做能夠在秒級內完成，且分析準確率超過 98%。網絡

爲了使「IT 健康分析」系統和智能分析模型發揮更大效能，英特爾爲之提供了多種先進軟硬件產品與框架，爲智能分析模型的訓練推理過程提供強勁算力和工具。同時，新方案還引入了「雲邊協同」的新架構，一方面，經過就近部署智能分析模型，提高運維能力的實時性；另外一方面，利用雲端的專家知識庫，對發現的問題進行閉環管理，展開問題溯源與優化方案編制，並將優化方案反饋回現場。架構

如今，這一全新的系統方案正普遍地在「數據庫健康狀態評估」、「網絡安全風險預警」等實際場景中開展實踐，並取得了良好的應用效果。框架

基石數據以機器健康模型，提高企業數據庫運維效率

■ 項目背景

做爲 IT 系統的核心組件之一，數據庫的健康對於企業信息化系統的高效運行相當重要。傳統上，運維工程師須要經過數據庫管理系統（Database Management System，DBMS）等工具，以人工方式對數據庫進行統一的管理、控制和調配。但這種方式既繁瑣又缺少效率，尤爲當企業信息化系統變得更爲複雜，且與業務緊密關聯時，配置優化效果將直接影響企業生產的效率。以產線自動化監控系統爲例，經過高清攝像頭採集的產線圖像須要在數據庫中暫存後再送至後端處理，在這種高吞吐量的場景中，如何設置數據庫的緩存機制，如何在阻塞發生前啓動相關 Session 的處理等，都會直接影響該產線的生產效率和產品品質。運維

基石數據推出的機器健康模型能有效應對以上挑戰。這一模型利用數據庫豐富的時序化監控數據，例如鏈接狀態、處理器 / 內存使用率、磁盤讀寫時延、緩存大小、等待時間等，經過機器學習或深度學習的方法進行訓練，並獲得合理的數據庫健康預測得分，進而幫助運維人員制定相應策略。機器學習

同時，這一健康預測方法，也是英特爾與基石數據合做開展的「IT 健康分析」系統在數據庫智能運維領域的重要落地，部署在邊緣的數據庫健康預測系統所獲得的預測結果，能夠與雲端的 D-Smart 運維知識自動化系統造成交互，對方案實施迭代優化。

■ 基石數據機器健康模型方案描述

基石數據機器健康模型方案基本架構如圖 2-2-20 所示，貼近電網管線、電力生產等一線部署的機器健康模型，由數據預處理、模型訓練 & 驗證以及預測系統幾部分組成，可使用訓練數據，經過特定算法訓練模型，並利用測試數據對模型效果進行驗證，迭代優化模型。最終的預測結果將傳送到位於雲端的 D-Smart 運維知識庫，並能夠對接內外部專家系統、廠商支撐、系統優化團隊以及專門的 IT 系統健康管理團隊，根據預測結果對數據庫情況進行分析，開展進一步優化。

機器健康模型會對數據庫當前的健康狀態進行評價打分，並預測將來一段時間內的健康得分。所以如圖2-2-21所示，模型的輸入數據X包括了會話鏈接狀態、處理器/內存使用率、磁盤讀寫時延、緩存大小等具備時序特徵的數據庫監控數據，輸出Y則是數據庫的健康得分，包括當前分數和將來時間的預測分。分數爲百分制，如96分。模型須要經過健康得分（標籤）來調整優化模型的參數，所以模型採用的是監督學習的方法。

模型首先從一線數據中得到供訓練和測試使用的數據集，這些數據已經預先打好標籤，並按照 80%:20% 的訓練與測試比例進行劃分。如圖2-2-22所示，方案中針對數據庫運維的健康模型使用了7類68個維度的指標，並預先設定了各個指標的健康度得分。由此，系統能夠獲得一組以時間序列排列的數據庫健康得分數據。

在獲取數據集以後，系統首先進行缺失值處理。數據集中的缺失值會帶來噪聲，從而對最後的預測結果形成誤差，所以方案採用了平均值填充或上下值填充的方式來予以處理。前者是將均值填入缺失值，後者是將前一個值或後一個值填入缺失值，不一樣缺失值填充方法會對預測結果形成差別，通常建議每行數據若是缺失率小於0.6則填充平均值。示例代碼以下：

特徵選擇是數據預處理環節中的重要步驟，進行合理的特徵選擇能夠下降維度，查找和選擇最有用的特徵，提升模型的可解釋性。另外，特徵選擇還能減小沒必要要的計算量，加快訓練速度，同時下降模型方差，提升泛化效果。

在特徵選擇過程當中，首先須要查找高度相關的特徵，在機器學習方法中，這類特徵可能會致使模型在測試集上的泛化能力降低。其次是計算特徵的重要性。示例代碼以下：

在使用梯度降低一類的機器算法中，若是能保證不一樣特徵的取值在相同或相近的範圍內，好比都處於 0-1 之間，那麼梯度降低算法會收斂的很快。所以在數據預處理的最後，方案對數據進行了特徵縮放處理。

通過預處理的數據集須要選擇合適的算法進行訓練，方案根據數據庫時序數據的特色選擇多種算法進行了比較，包括支持向量迴歸（Support Vactor Regression，SVR）算法、RNN- LSTM 算法，GBDT 算法、XGBoost 算法以及隨機森林算法等。經過驗證比較代表，在時序化的數據庫健康預測環境中， XGBoost 以及隨機森林算法的預測準確度和效率較高。

在上述過程當中，機器健康模型選擇了英特爾® 至強® 可擴展處理器來爲整個訓練推理過程提供強勁算力。這一系列的處理器不只集成了更多的內核和線程，對微架構也進行了全面升級優化，並配備了更快、效率更高的高速緩存來提高處理效能。同時，其集成的英特爾® DL Boost 技術，對 INT8 數值類型數據有着更好的支持，可大幅提高方案的模型推理速度。

■ 方案成效

經過在多個電力系統生產環境中的實際部署，驗證了採用XGBoost 或隨機森林算法的機器健康模型可對數據庫健康情況進行有效預測。如圖 2-2-23 所示，上圖是模型預測結果，下圖是實際狀況，二者的均方偏差（Mean Squared Error， MSE）爲 0.28，而在採用 XGBoost 算法的狀況下，均方偏差可進一步縮減到 0.218。同時，得益於基於英特爾 ® 架構的處理器的強大算力，兩種算法的訓練時間均在數秒內，知足了工業製造企業預測實時性的要求。

利用機器健康模型，及以其爲核心的「IT 健康分析」系統，基石數據針對某電力企業省級公司的 20 多套系統進行了IT 健康分析巡檢，僅在一個多月時間裏，就發現問題 143 個，並所有完成溯源工做。同時，利用預測結果，用戶還經過系統配置調整、SQL 調整、參數調整等方法，提高了系統性能，使一體化電量與線損系統、數據管理服務、結構化數據中心等與業務息息相關的核心信息化系統的健康分，由不足 80 分上升至90 分以上，得到了從管理層到生產一線的一致好評。

瞭解更多詳情，請點擊