Predictive Analysis in Network Function Virtualization

摘要

網絡功能虛擬化(NFV)體系結構的最新部署得到了極大的關注。虛擬化雖然帶來了諸如下降成本和簡化網絡功能部署之類的好處,但它增長了附加層,從而下降了較低層故障的透明度。爲了改善虛擬網絡功能(VNF)的故障分析和預測,咱們構想了一個運行時預測分析系統,該系統與現有的反應式監視系統並行運行,以向網絡運營商提供針對故障狀況的及時警告。在本文中,咱們提出了一種基於深度學習的方法,可從NFV系統日誌中可靠地識別異常事件,並使用2016-2018年連續18個月的虛擬化提供商邊緣路由器上的實際部署數據進行實證研究。咱們的深度學習模型與定製和適應機制相結合,能夠成功地識別與網絡故障單相關的異常狀況。分析這些異常能夠幫助操做員優化故障單的生成和處理規則,以便針對故障狀況採起快速甚至主動的措施。後端

1 INTRODUCTION

網絡功能虛擬化(NFV)體系結構的最新部署[1]得到了極大的關注。 NFV容許將之前由硬件處理的網絡功能實現爲在商品服務器上運行的軟件。其優點包括簡化新功能的部署,簡化管理
經過託管的虛擬機,並下降了使用商品硬件的成本。不利之處在於:1)與專用硬件相比,當今新實施的虛擬化網絡功能(VNF)及其主機商用服務器更容易出現故障[十一、十二、23],以及2)虛擬化爲下層事件引入了更多的層次和更少的可見性,例如故障。這些缺點可能會對NFV部署產生負面影響。例如,對於NFV系統來講,一個關鍵問題是它們是否能夠提供與傳統運營商級系統類似的可用性,最多可達9s(正常運行時間的99.999%)[5]。在本文中,咱們描述了在美國最大的ISP的IP主幹網絡邊緣部署的,迄今爲止已知的最大NFV部署之一中,預測網絡故障並減小停機時間的過程。咱們專一於重要的VNF類型之一-vPE(虛擬化提供商邊緣路由器)。咱們探索了一種系統的設計和性能,該系統將深度學習模型(LSTM),模型定製和經過轉移學習共享到syslog的組合相結合,從而使咱們可以識別潛在故障特徵,從而近乎實時地預測故障單。儘管將機器學習(包括深度學習模型)應用於故障預測自己並不新鮮[2二、2八、37],但咱們的工做面臨着三個挑戰的獨特組合。首先,因爲故障相對較少,所以咱們的數據極不平衡,所以很難訓練監督學習模型來進行故障單預測。其次,因爲每一個VNF都有其本身的規格和流量特性,所以可能沒有單個模型能夠在VNF中很好地工做。第三,按期軟件更新會不斷更改數據平面上的系統功能和流量特性。所以,咱們沒有足夠的精力來收集大量的培訓資料來創建長期使用的模型。相反,必須使用短數據窗口快速構建模型,並在下一次軟件更新或配置更改使它們過期以前將其部署。服務器

咱們的解決方案包括如下幾種技術:網絡

•爲了解決數據不平衡問題,咱們使用了無監督的異常檢測方法來訓練帶有「正常」日誌的長短時間記憶(LSTM)網絡[14]模型。 異常日誌模式會觸發對網絡故障狀況的預測。架構

•爲了解決VNF多樣性,咱們使用聚類來識別具備類似配置和日誌行爲的VNF,並對其進行彙總(將它們做爲合併後的系統日誌做爲一個單元進行處理)。dom

•爲了解決基礎架構更改的時間動態變化,咱們使用相似於遷移學習的增量培訓。 這有助於咱們在軟件更新後快速引導模型,而不會致使收集訓練數據的時間延遲。機器學習

咱們使用在生產環境中部署的vPE路由器上18個月內收集的網絡故障單來評估咱們的方法。 咱們的評估結果代表,系統日誌異常一般發生在生成網絡故障單以前。 咱們能夠找出這些異常狀況,以識別任何潛在的預警信號或預測性信號。分佈式

2 RELATED WORKS

NFV中的可靠性和故障管理。

[9,30]解決了NFV中可靠性,彈性和故障管理的必要性和挑戰,代表關鍵挑戰之一是層之間的協做和延遲。 [18]研究了網絡資源警報之間的相關性,併爲根本緣由分析制定了規則。 [21,24]利用基於自組織映射(SOM)的羣集來基於SNMP測量來識別不一樣類型的網絡故障,可是須要事先對每種故障類型進行充分的採樣。 [31]從虛擬機管理程序和VM層收集指標,並應用隨機森林對VNF行爲進行分類。全部這些都評估了小型的,自定義的網絡故障。模塊化

網絡中的故障預測/檢測。

現有的文獻[16,20]基於關鍵性能指標(KPI)來實現故障檢測,例如CPU利用率和數據包丟失,而咱們的工做集中在VNF系統日誌上。現有的大多數工做都經過創建通過正常和異常事件訓練的二進制分類器來應用監督的故障預測/檢測。 [10,19,29]根據故障事件的特徵應用了簡單的故障預測方法,並開發了隱馬爾可夫模型(HMM)和淺層機器學習方法進行網絡故障預測。爲了捕獲監視數據中的順序模式,[37]設計了順序功能,並應用了Random Forest來學習數據中心交換機硬件故障的預兆和非預兆模式。 [36]應用LSTM來檢測服務器羣集關閉的單一類型的故障。上述監督方法面臨的主要挑戰是,它們須要足夠的異常數據來訓練模型,這須要花費大量時間來收集,例如根據以上研究的多年。性能

爲了減小數據收集的延遲,一些工做採用了無監督的方法。 [35]提取狀態變量和標識符的特徵,並應用PCA進行異常檢測。 [8,17]將LSTM應用於Linux系統調用的網絡入侵檢測和CloudLab上的OpenStack實驗。儘管咱們也採用無監督的學習方法,但咱們的工做與現有工做有所不一樣,其重點是對NFV系統故障的預測分析。學習

3 INITIAL ANALYSIS

使用來自實際NFV部署的數據,咱們研究了網絡故障的不一樣類型及其時空模式。 咱們還檢查了VNF層上syslog的模式,這些模式將用於預測網絡故障。

3.1 Datasets

咱們的數據集包括網絡故障單和從38層vPE(虛擬化的提供商邊緣路由器)收集的,由一級ISP的骨幹網絡在18個月內部署的VNF系統日誌。 vPE降級會致使客戶網絡上的服務受損。 預測這些故障事件可使操做員或閉環自動化在每次事件發生以前觸發緩解措施,並最大程度地下降其影響。

網絡故障單。

故障單捕獲可操做的網絡事件。每一個故障單都包含發生時間,根本緣由和故障單持續時間。咱們的數據集包括這38個vPE上的所有故障單,幷包含如下六類根本緣由:

•維護:預期或計劃的網絡操做或更改;

•電路:兩個設備之間(特定接口上)的鏈接斷開。

•電纜:因爲環境或人爲因素形成的電纜斷開鏈接。

•硬件:構成機箱系統的卡和構成卡的組件出現故障。

•軟件:因爲軟件問題而致使的故障。

•重複:原始問題未解決時,後續操做失敗。

對於每一個故障單,咱們同時跟蹤故障單報告時間和維修結束時間。故障票證是由來自各類網絡監視系統的信號經過一系列票證處理邏輯(例如模式匹配和事件相關性)與已知問題簽名進行匹配而觸發的。所以,票證報告時間一般在第一次出現網絡故障症狀時或以後。因爲票證生成過程不完善,所以可能會遺漏早期症狀,並在症狀的首次出現和票證的實際生成之間引入明顯的延遲。

VNF系統日誌。

系統日誌是系統生成的用於描述各類事件的複雜,無結構,自由格式的文本[26,35]。一部vPE每一年可能有數百萬條syslog消息。關鍵字和日誌消息的不一樣類型之間的關係[八、1七、2六、37]定義了系統日誌的關鍵結構模式。咱們使用著名的簽名樹[26]方法將原始syslog轉換爲結構化表示形式,以方便進行關係建模。咱們還將vPE系統日誌與具備相似網絡票證的pPE(物理提供商邊緣路由器)的系統日誌進行比較。咱們觀察到,vPE syslog的容量比pPE syslog少77%,而且在物理層上包含的日誌消息少得多。這證明了咱們的直覺,即NFV下降了每一個vPE對較低層事件的可見性。

3.2 Trouble Ticket Analysis

爲了幫助理解故障憑單的可預測性,咱們將分析重點放在(1)故障憑單的時間分佈/頻率和(2)vPE之間的憑單模式類似性。

時間分佈。

圖1(a)顯示了隨時間推移具備不一樣根本緣由的故障單。 咱們發現維護是主要因素,但它們是可預測的(由於它們是預約事件)。 接下來的兩個主要貢獻者是重複票和巡迴票。 整體而言,票證數據高度不對稱。 圖1(b)繪製了每一個vPE的非重複故障單到達間隔時間的分佈。 咱們發現非重複的票證相隔40分鐘以上到達。 連續票證之間的時間間隔的80%超過10小時,而且連續票證之間的25%的間隔時間超過1000小時(42天)。 最後,咱們觀察到重複的票證常常會忽然到達。

每一個vPE tickets 行爲。

圖2顯示了跨vPE的非維護故障憑單(按每一個vPE的憑單數量排序)。 每一個點表示對應的vPE(y)在給定的時間間隔(x)上具備票證。 顯然,票證模式是非週期性的,而且與vPE有關-某些vPE具備比其餘票證更多的票證。 時間或任何特定vPE都沒有明顯的誤差。 另外一個觀察結果是,有時,多個vPE在相同的時間間隔(豎線標記)中遇到網絡故障狀況。 對數據的更深刻研究代表,這些票證是由致使全部鏈接的vPE中斷的核心路由器問題觸發的。 可是,這種狀況不多見,只會形成不多的故障單.

3.3 VNF Syslog Analysis

咱們對在vPE處收集的VNF系統日誌進行時空分析。爲了分析與網絡故障事件無關的「正常」系統日誌條目,咱們會修剪日誌以刪除故障單有效期(故障單到達時間到標記爲已解決之間的時間)以內三天內的全部條目。跨vPE的相關性。咱們首先問一個問題:vPE的系統日誌在正常運行期間是否顯示相似的行爲(即無端障)?咱們計算每一個vPEv的syslog分佈的餘弦類似度[32],以及全部vPEs V上聚合的syslog的餘弦類似度[32],即

其中s(·)表示系統日誌分佈。咱們在整個系統日誌中使用一個月的滑動時間窗口,並計算歸一化的頻率分佈。圖3顯示了整個時間的餘弦類似度的分位數(0%,25%,50%,75%,100%)。只有三分之一的vPE具備類似的syslog分佈(餘弦類似度> 0.8),而且有5個vPE的餘弦類似度<0.5。這多是因爲服務器角色,配置和流量的差別所致。所以,咱們將須要針對每一個vPE定製的模型來檢測vPE syslog上的異常

系統更新的影響。

另外一個關鍵發現是,某些vPE的系統日誌在2017年末至2018年初之間忽然發生了變化,這是因爲系統更新改變了系統日誌的分佈而觸發的。 咱們計算連續兩個月之間syslog分佈的餘弦類似度。 咱們發現,在系統更新以前,餘弦類似度始終高於0.8,但在系統更新後降至低於0.4。 這意味着咱們須要快速更新vPE syslog的模型(使用短數據窗口),以使它們不會過期

4 PREDICTING TICKETS FROM SYSLOG

ANOMALIES
在本節中,咱們將介紹肯定vPE syslog中特定(或異常)模式的方法,這些模式可能用做(故障)tickets 情況的早期檢測或警告簽名.

4.1方法論

咱們在§3中的經驗分析肯定了經過vPE syslog預測故障單的三個主要挑戰。首先,在咱們的vPE系統日誌中,故障單相對較少。在這種不平衡的數據的狀況下,很難訓練用於故障預測的監督學習模型。其次,系統日誌數據的數量和複雜性使得很難手動選擇對日誌行爲進行ML模型訓練所必需的功能集。第三,因爲Syslog分佈隨vPE的不一樣而變化,所以隨着時間的流逝,咱們須要爲每一個vPE自定義機器學習模型,並在系統更新後對其進行從新培訓。二者都會致使數據收集延遲方面的大量開銷。爲了解決前兩個挑戰,咱們創建了一個長期短時間記憶(LSTM)網絡[14],該網絡在正常運行期間自動學習系統日誌模式(第4.2節)。代替有監督的訓練,咱們採用使用「正常」 syslog數據訓練的基線模型採起異常檢測方法。所以,故障票事件的稀有性不會影響咱們。每一個檢測到的異常均可能充當網絡故障情況的指示器。爲了解決數據收集延遲的第三個挑戰,咱們同時應用了羣集和在線學習技術,以減小爲單個vPE定製模型所需的訓練數據量(第4.3節)。檢測到異常後,咱們將它們與相關故障單之間的映射關聯起來。咱們將票證生成以前的時間窗定義爲預測期,並將票證報告與維修結束之間的時間做爲預期期。如圖4所示,若是在票證的預測或預期時間段內檢測到異常,咱們會將其與票證相關聯。特別是,在機票的預測期內檢測到的異常被視爲「預警信號」,而在機票的預期時間內檢測到的異常被視爲「過後症狀」。儘管有不少緣由,在出票時間以前可能會發生異常,某些早期預警信號可能會轉換爲其餘觸發票的簽名。與票證無關的異常將被視爲錯誤警報。咱們會更改預測期的長度,以查看第5節中的效果變化。

4.2基於LSTM的異常檢測

做爲用戶/程序與系統之間通訊的一種語言,vPE syslog顯示順序模式。準確的系統日誌模型必須可以捕獲那些順序模式。所以,咱們考慮了長期短時間記憶(LSTM)網絡,該網絡以其捕獲嵌入在順序數據中的全面而複雜的模式1的能力而聞名。藉助足夠的培訓數據,LSTM能夠自動學習系統日誌的正常模式,而且能夠將異常狀況做爲正常狀況進行偏離。實際上,LSTM在檢測各類異常方面已顯示出巨大的成功,例如分佈式系統中的服務器故障或情感分析中的異常[8,17,33]。與傳統的線性分類器不一樣,咱們的方法不依賴特徵工程。對於LSTM的輸入,咱們使用每一個單獨的logmi,它捕獲特定時間間隔([ti,ti-1))的系統事件(mi出如今ti)。不只使用原始日誌條目,咱們還使用上述簽名樹方法[26]從原始數據中提取特定的模板(或簽名)並對其進行分類,並以(mi,ti -ti-1)元組標記,mi∈S,其中S是模板集合。給定k個syslog元組,咱們訓練LSTM模型來預測mk + 1。這是一個多類分類問題,其中輸出是模板集S上的機率分佈。

模型訓練。

咱們使用在「免票」網絡操做期間產生的系統日誌來訓練LSTM網絡。如第3.3節所述,咱們修剪在實際工單的活動窗口周圍3天時間內發生的syslog條目。咱們還嘗試了更大的窗口大小,但沒有觀察到明顯的差別。

檢測異常。

使用訓練有素的LSTM模型,咱們能夠以下檢測異常。爲了肯定傳入的系統日誌mk + 1是正常仍是異常,咱們將先前觀察到的k個系統日誌插入模型中,並得出第(k + 1)個對數的預測機率分佈。若是mk + 1正常,則相應的對數似然值應較高(高於閾值),不然爲異常。經過更改閾值,咱們能夠得出精確召回曲線(PRC),這是用於評估異常檢測系統的最普遍的方法[6]。

學習少數Syslog模式。

儘管LSTM旨在自動學習正常syslog條目的模式,但因爲少數羣體模式在訓練數據中不多出現,所以一般很難學習。結果是較高的誤報率。咱們經過對少數(正常)模式進行過採樣來解決此問題[4]。具體來講,咱們使用第i個月的系統日誌來訓練LSTM模型,該模型將用於檢測第i個月(i +1)內的異常狀況。咱們使用第i個月的正常syslog做爲訓練數據,對LSTM模型進行屢次訓練。在每輪訓練以後,咱們使用原始訓練數據測試模型,並識別被誤分類爲異常的正常syslog模式。而後,咱們對這些模式進行過分採樣,並對全部其餘模式進行隨機採樣,並使用所得數據調整模型權重。當假陽性率不能進一步提升時,該過程退出。

4.3定製和適應

因爲syslog的分佈在vPE之間有所不一樣,所以通常的LSTM模型可能會達到次優的精度。理想的解決方案是爲每一個vPE構建自定義模型,可是由此產生的訓練開銷和數據收集延遲是不可接受的。咱們使用vPE分組解決了模型準確性和數據收集延遲之間的折衷[16]。咱們將K-均值[13]應用於vPE組,並根據模塊化選擇K組的數量。同一羣集中的vPE在syslog分佈中顯示類似的模式,而且它們的訓練數據將彙總在一塊兒覺得該組創建統一模型。對於咱們的數據集,咱們產生了4個vPE簇,這致使了4個LSTM模型。

咱們還使用在線(或增量)學習來減小訓練數據收集的延遲。具體來講,每月咱們都會使用新到達的syslog條目更新模型權重,以進行一輪增量培訓。因爲系統日誌分佈相對穩定,所以咱們沒有觀察到模型權重的顯着變化。

惟一的例外是,在2017年末至2018年初之間,vPE網絡進行了系統升級,而且對某些vPE的系統日誌分發進行了重大修改。結果,錯誤警報的數量增長了14倍,代表該模型已過期且須要更新。天真的解決方案是從新訓練整個模型,可是重建合理的訓練數據集須要3個月以上的時間。咱們須要一種能夠在更短的時間範圍內從新訓練模型的解決方案。

爲了解決這一挑戰,咱們考慮轉移學習[27],其中使用有限的訓練數據將預訓練的神經網絡模型(即在系統更新以前訓練的「教師模型」)調整爲能夠響應新系統日誌的學生模型。行爲。具體而言,咱們首先經過複製教師模型來構建學生模型,而後使用新的syslog數據訓練學生模型以調整模型的頂層。對於咱們的案例,在主要軟件更新後,有足夠的一週新的訓練數據來快速更新模型。

5 EVALUATION

在本節中,咱們評估基於LSTM的異常檢測系統,以及將vPE syslog異經常使用做網絡故障單的(早期)警告簽名的可行性

5.1 Experimental Setup

咱們使用Keras [2]和Tensor ow [3]做爲後端實現了異常檢測系統。對於模型優化,咱們改變了模型參數以最小化分類交叉熵[15],但發現模型性能一般對參數選擇不敏感。咱們的最終LSTM模型由2個LSTM層和1個緻密層組成。

估計系統日誌異常的地面真相。評估咱們的異常檢測系統須要系統日誌異常的地面真實性,咱們可使用故障單進行近似。對於每一個故障單,咱們將其生成時間以前的時間窗口定義爲預測週期,並將其生成後直至報告的故障單修復時間(機票持續時間)的時間窗口定義爲預期時間段。如圖4所示,若是任何系統日誌異常屬於故障單的預測期或預期期,咱們將其視爲真正的異常。所以一張票可能具備多個(早期)簽名。另外一方面,在這些時間段以外的任何異常都被視爲誤報。咱們嘗試了從1小時到2天的多個預測週期值,發現檢測性能在1天時收斂。另外一個有趣的觀察結果是,在將syslog異常與非重複故障單匹配以後,每一個故障單都與至少兩個異常相關聯(在預測期內)。這些異常彼此接近,平均間隔不到1分鐘。所以,咱們配置了檢測系統,以在檢測到兩個或多個異常的小簇時報告網絡故障單的警告簽名。

訓練和測試。

咱們使用18個月數據中第一個月的syslog數據進行初始模型訓練。 在每月末,咱們使用上個月的最新數據更新LSTM模型,並使用下個月的數據測試更新後的模型。 初始模型訓練和每個月模型更新都在不到一小時的時間內完成。

5.2 Accuracy of Anomaly Detection

精度,召回率,F量度。

咱們從異常檢測的三個標準指標開始[25]。 精度顯示全部檢測到的異常中真實異常的百分比; 召回率用於測量所檢測到的數據集中異常的百分比(門票爲地面)。 F-measure是二者的諧波均值。 圖5繪製了經過調整LSTM對數機率(第4.2節)中的上述閾值而產生的精確召回曲線(PRC)。 咱們的最終工做點是最大化Fmeasure的工做點,精度爲0.8,召回率爲0.81。 在這種狀況下,咱們的系統能夠有效地識別異常,同時爲全部vPE天天實現0.6%的低誤報率。

與現有方法的比較。

咱們考慮了兩種用於異常檢測的現有方法:•自動編碼器[7]是前饋多層神經網絡,其中所需的輸出是輸入自己。用正常數據訓練自動編碼器後,重建錯誤能夠用做異常指示。咱們使用TF-IDF(項頻,文檔逆頻)功能[36]做爲自動編碼器的輸入。 •一類SVM [34]使用淺層學習來構建正常syslog訓練數據的模型,這須要特徵工程(經過內核將數據映射到高維特徵空間中)。若是新的系統日誌條目明顯偏離模型,則將其標記爲異常。爲了公平地比較,咱們在全部三種方法上都應用了相同的自定義和適應機制(第4.3節)。圖6顯示了這三種方法的性能。兩種深度學習方法(LSTM,自動編碼器)在很大程度上優於傳統的分類方法(一類SVM),由於鑑於vPE syslog的數量和複雜性,功能工程很是具備挑戰性。經過捕獲syslog的順序模式,LSTM略勝於Autoencoder(精度爲0.82 vs. 0.77)。

定製和適應的收益。

咱們使用微基準來了解模型自定義(全部vPE的單個模型與每一個vPE的自定義模型)和快速模型適應(在系統更新以後)的做用。圖7繪製了18個月期間的模型F量度。模型定製能夠顯着改善模型F度量和精度(因爲空間限制,結果未顯示)。咱們的模型自適應組件容許系統僅用1周的訓練數據便可從軟件更新形成的破壞中快速恢復。使用超過1周的訓練數據不會產生明顯的改善。

 減小培訓費用。咱們的設計同時使用vPE羣集和轉移學習來減小syslog訓練數據量(用於構建和調整LSTM模型)。咱們經過將它們與相應的基準進行比較來評估其有效性。使用vPE羣集,咱們能夠將(初始)培訓數據的數量從3個月減小到1個月。使用轉移學習,咱們將恢復時間(從軟件更新)從3個月減小到1周。這意味着咱們能夠創建和維護高質量的預測模型,而不會因收集訓練數據而形成昂貴的延遲。
 

5.3基於故障單的評估

咱們使用故障單做爲近似的地面真實性來評估咱們的方法如何有效地發現異常的系統日誌條件。圖8顯示了針對每一個人(非票證)(至少在票證到達前15分鐘,在票證以前至少5分鐘,在票證以前0分鐘,在票證以後5分鐘以及在票證以後15分鐘)檢測到任何異常的可能性。 (重複)票證類型,以及全部票證。

 咱們尋求回答如下問題:

Q1:哪些類型的網絡故障單在VNF Syslog中顯示早期跡象?答:咱們發現VNF系統日誌出如今多種故障單類型(例如,電路,軟件,電纜和硬件)以前。與電路故障故障單相關的系統日誌在故障單生成以前發生的可能性最高(74%),其次是軟件(55%),電纜(40%)和硬件(28%)。這代表儘管對由虛擬化致使的較低故障的可見性下降了,但VNF syslog確實捕獲了與網絡故障單相關的異常狀況。

問題2:對於在故障單生成以前未顯示syslog異常的故障,它們的任何異常會很快出如今syslog上嗎?答:是的,對於大多數票證(80%),vPE syslog將在票證生成後的15分鐘內顯示異常模式。這意味着故障模式在短暫的延遲後就能夠在NFV層上看到,NFV能夠利用它來進行故障單分析,診斷和管理。

Q3:與故障單代相比,咱們多早觀察到系統日誌異常狀況?答:大多數檢測到的系統日誌異常都在故障單生成以前5分鐘。對於Circuit,系統日誌異常的36%提早15分鐘出現,對於電纜(39%)和硬件(38%)類別,該比率甚至更高。儘管須要進行更深刻的調查,但這些結果代表,運營商可能可以利用這些系統日誌異常來改善其票務流程,或者識別出指示網絡故障的預測性或早期情況。

問題4:單個或一組異常是否能夠做爲一組近期故障單的警告信號?答案:這與是否能夠將單個系統日誌異常(或系統日誌異常集羣)與多個故障單關聯的問題有關。根據咱們當前的數據集,這從未發生過,這主要是由於票證稀少且分隔良好。咱們計劃未來使用更大規模的研究來證明這一發現。

運營結果。

咱們的模型識別出的異常能夠分爲四種狀況。首先,檢測到的狀況多是近期網絡問題的真實預測信號。例如,咱們肯定了一個條件,該條件涉及與特定控制器的某些對等會話鏈接失敗有關的管理守護程序錯誤消息(「來自對等機箱控制的無效響應」)。當觀察到這種狀況的異常時,一般會在一段時間後發出故障單。咱們須要進一步研究這種明顯的預測性特徵,以瞭解潛在的vPE行爲。其次,能夠分析檢測到的情況,並在出現故障情況時將其轉變爲早期檢測特徵。例如,咱們發現,在短期間隔內跨多個對等方的協議會話aps(「 BGP UNUSABLE ASPATH:bgp拒絕路徑」)風暴能夠轉變爲快速檢測簽名(誤報最少)。這種異常檢測的性能優於現有的服務水平監視器,後者一般具備更長的檢測延遲。第三,檢測到的狀況多是觸發故障單的事件的一部分。這多是因爲現有票務流程中的事件響應過程所致,例如爲抑制瞬態問題而添加的故意延遲。咱們的發現可能有助於運營進一步優化票務流程。第四,檢測到的條件與故障單是巧合的(即,涉及無關的系統日誌異常)。這種狀況是相對罕見的,應謹慎管理,例如,經過在票證處理流中添加抑制規則。在之後的工做中,咱們將檢測到的狀況進一步分爲這四種狀況。

6 結論

咱們在實際部署中使用系統日誌和網絡故障單來研究NFV網絡中的故障預測問題。 咱們提出了一種從NFV系統日誌中檢測異常的新方法,該方法有可能用做網絡問題的早期指示器,這些問題一般會致使故障單。 咱們使用在生產NFV環境中在虛擬化提供商邊緣(vPE)路由器上收集了18個月以上的樣本數據集來驗證咱們的方法。 咱們觀察到,基於LSTM的異常檢測系統發現了一般在故障單以前發生的系統日誌異常狀況。 咱們相信,咱們的方法能夠幫助網絡運營團隊(a)識別預測性或早期預警信號,或(b)改進當前的票務流程,從而可以及時響應NFV故障。

相關文章
相關標籤/搜索