目前市面上的公有云上雲專線都有着本身的健康檢查機制,經過正確設置檢查週期、超時時間、最大重試次數等參數,在底層鏈路發生中斷時,能夠迅速進行業務切換,從而有效提升了業務SLA。可是健康檢查只有在時間窗內連續屢次檢查到狀態變化後,纔會進行業務切換,對於鏈路輕微丟包致使的業務質量降低無能爲力,甚至會引發誤報,引發業務狀態異常。算法
本文將介紹經過雲端BGP+BFD的保障手段加雲下DCI網絡提供的NQA+iPCA策略,爲客戶提供高可靠、低時延、大帶寬的雲鏈接服務的方案。網絡
1.主流雲廠商上雲專線健康檢查機制
app
下面淺談一下兩大主流雲廠商的物理專線健康檢查機制運維
阿里雲的健康檢查機制
ide
目前阿里雲採用專線接入和雲企業網組合的方式,實現客戶IDC經過主備鏈路上雲。用戶IDC經過專線雙冗餘方式鏈接到阿里雲的不一樣邊界路由器(VBR),IDC和VBR之間採用BGP路由協議。須要用戶IDC和邊界路由器之間分別創建起BGP鄰居關係,並經過設置AS-Path來肯定選路權重,實現阿里雲到雲下IDC路由的主備保護。另外阿里雲每兩秒從每一個健康檢查源IP向本地數據中心中的健康檢查目的IP發送一個ping報文,若是某條物理專線上連續八個ping報文都沒法獲得回覆,則認爲鏈路中斷,直接將流量切換至另外一條。性能
圖1. 阿里雲的健康檢查機制
測試
騰訊雲的健康檢查機制
阿里雲
目前騰訊雲使用的是單物理專線上雲模式,物理專線自己無保護。爲提高可用性,騰訊雲官方推薦使用冗餘物理專線模式上雲,選擇兩條異路由的物理專線互爲備份,同時兩條物理專線鏈接到騰訊雲的不一樣接入設備,防止發生單點故障引發業務中斷。spa
冗餘鏈路觸發切換的方式:3d
方式一:配置靜態路由,經過配置雙向 BFD 實現路由收斂。
方式二:配置BGP,經過 BGP 自身的收斂機制觸發切換。
圖2. 騰訊雲的健康檢查機制
2.雲鏈接監測與保障策略
IDC與公有云之間的數據同步通道,須要知足「高可靠、低時延、大帶寬」的特色,除了公有云廠商提供的基礎鏈路保護以外,還要求上雲專線業務能根據用戶不一樣的上雲方式,爲用戶提供專屬的解決方案。
網絡質量分析
網絡質量分析NQA(Network Quality Analyzer)是一種實時的網絡性能探測和統計技術,能夠對響應時間、網絡抖動、丟包率等網絡信息進行統計。NQA還提供了與Track和路由聯動的功能,實時監控網絡狀態的變化,及時進行相應的處理,從而避免雲上與雲下之間鏈路故障引發的服務質量下降。目前還有客戶雲上和雲下靜態路由方式進行組網,在用戶側可以使用NQA與TRACK和路由聯動的方式,爲用戶提供鏈路保護。
圖3. NQA+TRACK聯動機制1
當網絡出現故障時:
NQA檢測到監測地址不可達;
將監測結果反饋給Track模塊,使得Track模塊更改Track狀態;
Track模塊將改變的Track狀態反饋給靜態路由;
路由根據Track狀態判斷路由項是否有效;
若是網絡中存在備用路徑,路由器將選擇備用路徑。
圖4. NQA+TRACK聯動機制2
簡述NQA的部署模式:NQA主要部署在混合雲場景中,此場景中可能存在多個不一樣雲廠商的多個可用區,以及多個物理專線通道,因雲端的鏈路保護策略存在差別,爲實現物理專線的總體監控及故障倒切,需針對每條物理專線開闢出獨立的監控通道,經過監控雲下交換機和雲上的虛擬機之間的NQA信息來判斷每條物理專線的健康度,NQA可與網管系統及靜態路由聯動,在鏈路出現問題時推送故障信息,同時對業務進行主動切換,下降用戶因故障所受的損失。
具體部署方式以下(以阿里云爲例):
1. 雲上開通虛擬機做爲測試主機
圖5. 雲上虛擬機開通界面
2. 將虛擬機所在VPC與VBR進行綁定,能夠經過綁定多個VBR測試多條物理專線
圖6. 虛擬機與物理專線綁定界面
3. 配置雲下交換機NQA數據
4. 經過「display nqa results」查看ICMP類型的NQA測試例測試結果。
可看到「Lost packet ratio: 0 %」,說明鏈路狀況正常
5. 故障通知與鏈路倒切
NQA實例狀態可經過snmp trap與網管系統聯動;同時,做爲對雲端BGP+BFD的補充,在雲下如須要根據NQA實現鏈路切換,可將測試實例與靜態路由綁定,在鏈路故障時切換至備用線路
數據包級別監控
網絡包守恆算法IPCA(Packet Conservation Algorithm for Internet)是一種IP網絡性能統計技術,基於IP FPM(IP Flow Performance Monitor,IP流性能監控)實現,經過直接對業務報文進行標記的方法,實現對IP網絡的丟包率、時延的統計,達到快速、準確地進行故障定位的目的。IPCA適用於2、三層網絡,能夠直接對業務報文進行測量,測量數據能夠真實反映IP網絡的性能。
IPCA在實際使用中能夠實現數據包級別的監控。當用戶上雲業務因底層鏈路問題產生丟包、時延抖動等狀況時可在第一時間感知並處理,極大下降了鏈路隱患對業務的影響。
圖7.IPCA監控示意圖
簡述IPCA的部署模式:IPCA相對於NQA來講更加深刻,IPCA可模擬用戶真實路徑,監控路徑上的所有網絡節點,可以快速檢測用戶的視頻、語音等業務質量,即刻定位故障發生在鏈路、板卡甚至端口的位置,極大的提高了運維效率。
部署過程(須要華爲交換機並支持敏捷特性):
1. 部署eSight網管管理敏捷設備。
圖8.eSight網管示意圖
完成iPCA支持配置,如在設備上配置NTP時間同步、設備側SNMP參數、使能設備告警上報網管,並使能SSH客戶端首次認證功能,容許網管從設備獲取數據。
在網管上配置網管側SNMP參數、發現網元、發現鏈路。
2. 經過eSight網管拓撲界面選擇不一樣區域的多個敏捷設備,使能iPCA。敏捷設備及其物理直連鏈路,將會自動使能監控。
圖9.使能IPCA示意圖
3. 用戶員能夠經過eSight網管隨時查看測量結果。
3.總結
世紀互聯爲廣大的DC託管客戶提供高可靠、低時延、大帶寬的雲鏈接服務,經過雲端BGP+BFD的保障手段及雲下DCI網絡提供的NQA+iPCA策略,世紀互聯可保證雲鏈接業務SLA達到99.999%,同時,經過定製化秒級業務監控系統,用戶能夠實時觀測本身的物理專線狀態和使用狀況,給客戶提供「看得見」的業務保障。
世紀互聯擁有全國超大容量DCI網絡和豐富的公有云POP點,與各大公有云廠商均有良好的合做關係,有着二十年行業經驗的資深工程師隊伍將竭誠爲用戶提供最優質的服務。