【華爲雲技術分享】網絡場景AI模型訓練效率實踐

【摘要】 問題 KPI異常檢測項目須要對設備內多模塊、多類型數據,並根據波形以及異常表現進行分析,這樣的數據量每每較大,對內存和性能要求較高。同時,在設計優化算法時,須要快速獲得訓練及測試結果並根據結果來調整算法,所以進一步要求計算內存和性能達到較高的水平。當前,本地安全PC性能難以知足調試要求,難點主要在於,時間序列數據以csv文件格式存儲,須要根據時序關係以及五維關鍵字拆分紅以五維關鍵字爲主...

問題

KPI異常檢測項目須要對設備內多模塊、多類型數據,並根據波形以及異常表現進行分析,這樣的數據量每每較大,對內存和性能要求較高。算法

同時,在設計優化算法時,須要快速獲得訓練及測試結果並根據結果來調整算法,所以進一步要求計算內存和性能達到較高的水平。segmentfault

當前,本地安全PC性能難以知足調試要求,難點主要在於,時間序列數據以csv文件格式存儲,須要根據時序關係以及五維關鍵字拆分紅以五維關鍵字爲主鍵的惟一時序數據,這一過程須要將同一臺設備全部KPI文件同時讀入內存,一星期KPI數據文件就達到GB級別,單單本機訓練就須要41Min。同時,每臺網管設備納管幾千臺設備,訓練花的時間將按設備數對應倍數增長,單進程執行網管設備局點數據分析的時間將到達Month級別。安全

KPI異常檢測項目但願可以根據KPI數據特色,顯著縮短訓練時間,以知足快速測試算法調優的需求。性能

華爲解決方案

1. 對華爲NAIE訓練平臺現有任務機制進行拓展,任務可以使用Master-Worker機制,即原來的任務變成Master控制消息分發,在其命名空間下建立N個子任務,循環處理數據測試

2. 設計一套簡單易用的API,儘可能對業務代碼無侵入優化

  • 導入依賴:

咱們從naie sdk中導入兩個裝飾器spa

  • 定義數據:

假設咱們有四個數據集實例,咱們將它定義爲一個列表設計

如上面代碼所示,主程序每次接受一個列表中的元素,其他代碼和單機保持一致。調試

after裝飾器下面的代碼只會在主節點上運行一次,它執行的時機是全部的主程序運行完以後,請根據業務的需求決定是否添加。blog

改進效果

50個同等大小的文件夾若是在本地運行約須要34hour,擴大訓練任務節點數後(現爲30個),50個同等大小的文件夾在訓練平臺運行時間縮短爲2hour。

點擊關注,第一時間瞭解華爲雲新鮮技術~

相關文章
相關標籤/搜索