1、問題現象ios
最近在某客戶因爲假期出現核心CISCO 6509硬件故障當機問題,進而發現F5發佈的3個應用訪問問題,出現一部分人訪問應用出現不可用的問題,時好時壞,內網使用F5 GTM+LTM進行域名雙活,內部同城雙活DC經過三層路由使用CISCO的大二層技術OTV+LISP技術構建;算法
F5上面檢查應用無論是VS仍是pool member都是正常,health check or monitor算法採用TCP;經過將LTM雙機上面對端DC業務member 進行offline,GSLB的跨DC member disable解析只導流到主DC,此時業務訪問正常,造成單活進行排查服務器
問題表象是跨DC訪問後業務就訪問異常,可是神奇的是隻有部分vlan有問題,大部分跨DC的vlan沒有問題!網絡
經過初步排查,應用人員表示應用無問題,網絡人員表示網絡無問題(能夠從主中心ping通備中心應用IP,能夠跨DCtelnet通業務應用端口,並且其它vlan沒有問題),F5人員也表示F5日誌各方面正常,無異常日誌!ide
2、問題緣由測試
F5人員建議對跨DC訪問的443端口進行直接訪問(不通過F5負載)測試與抓包,檢查數據包通訊狀況日誌
經過抓包,發現TCP三次握手正常,可是SSL協議握手異常,客戶端發送了client hello以後,服務器端回送了一個1050byte左右的ssl data(非server hello)包且提示前導段丟失!而後接着客戶端FIN掉了鏈接!server
再經過對本DC正常應用訪問抓包,明確SSL協商正常,SSL握手包最多幾百byte,因此這是應用層面的異常問題,並非簡單的網絡層面的問題ssl
可是否是應用的問題呢,讓應用人員更換一個vlan後,訪問正常!證實並非應用層面的配置異常問題!極可能是網絡影響應用的一個問題!路由
鑑於硬件故障當機,路徑變化,應用ssl協議交互數據包大小異常,並提示previos fragment前導段丟失等網絡問題,F5人員建議檢查MTU設置,而後客戶管理人員以及網絡人員才說出以前也出現過MTU問題,讓CISCO TAC進行檢查,經過幾個小時檢查,終於確認是因爲CISCO 6509當機致使部分VLAN OTV路徑變換,MTU沒有改成9216字節的MTU致使!
更改後業務訪問正常!
3、解決方法
更換路徑中的OTV MTU後解決,F5相關配置還原,應用測試正常!