排錯中的直覺,其實源自長期以來積累的經驗---記一次網絡故障排查

        又是好久一段時間沒寫什麼了,此次帶來了一次網絡故障排查。先把背景描述一下,前一天晚上,客戶的網絡核心進行割接,用新設備替換老設備。核心設備的替換,天然不能大意,循序漸進的完成,而後各類測試,雖然期間有些小問題,可是都解決了,順利結束。網絡

        次日,準時到現場保障,問題發生了,視頻會議系統故障,視頻控制器PING不通了。客戶第一步固然是想到是否是核心割接致使的,首先按以下步驟來排查:ide

  1. 核心上路由表正常,視頻會議的網關不在覈心上,而是在另外一臺核心上,和咱們操做的核心是三層互聯,使用靜態路由,從核心去視頻系統的網關是通的,初步判斷不是咱們核心割接的問題;學習

  2. 視頻會議系統在另外一棟樓,到咱們這裏的機房走的光纖,懷疑線路問題,觀察接口發現接口正常,可是接口下沒有學習到任何MAC,說明線路仍是有問題了;測試

  3. 客戶說之前有一條老線路,若是目前線路沒法恢復,切回老線路試試,可是老線路的走向不清楚,判斷可能性不大,或者切換的時間會很長;設計

  4. 客戶到其它幾個樓,測試了一下視頻終端,網絡是正常的,全網的視頻系統都是vlan900,不論物理位置在哪,因此實際上就是一個超級大的二層網絡;視頻

  5. 在覈心機房內沒法進一步排查了,決定到視頻系統所在的那棟樓去檢查;接口

  6. 到達機房,檢查樓內核心交換機上,有一根光纖標記了視頻專用,推測就是這根,登陸核心查看mac,能夠看到幾個VLAN900的mac,核心上到樓內各個地方的光纜有標籤,兩臺核心作的VRRPci

  7. 最後到了視頻系統設備所在的交換機,接口亮的,登陸查看MAC,能夠看到,而後把這個MAC對比核心上 的MAC,發現沒有,最後看一眼交換機,兩對光纖,和核心上一樣的顏色,一樣的標籤。
    路由

       到這一步運行我賣個關子,你們能夠想一下問題可能出如今哪。it

       這裏插一句題外話,我常常給組員說我排錯的思路,經驗,案例,但願能提高他們,可是一個案例,我說出來的時候,就會天然過濾掉不少現場的干擾因素,直接把最關鍵的步驟羅列出來了,其實最難的纔是如何排除干擾,客觀的,主觀的,各類各類的。這也就致使了,我我的排錯出來挺有成就感,可是一去寫,去說就感受不精彩了。

        好了,揭曉答案,我看到那兩對光纖就感受到不對,立刻查看了STP阻塞端口,果真其中一個唄阻塞了,再看配置,被阻塞的口下有配置,正常的口沒配置。把正常的口上光纖拔了,被阻塞的口恢復,系統隨之恢復了。

        問題來了,這個問題的表面緣由是少了配置,兩根互備的線路,只有一根配置了,因此STP阻塞的接口發生變化的時候,業務就斷了,再往深了分析,是昨晚的割接,替換了核心,整個大網的生成樹從新進行了計算,致使兩個端口原來阻塞的A,變成了B,最後的最後,其實這一切都是全網處處配trunk致使的,不少網絡在建設的時候,不作三層,都喜歡搞大二層,看似方便,實際很容易出現各類莫名其妙的問題,因此從這個問題能夠看出來,客戶自己的整張網,從設計上都已經天生殘疾了。

        過程說完了,不知道大家能學到多少,排錯這事確實須要經驗積累,因此,不要急,多想一想爲何,你就能比別人進步的快一點了。

相關文章
相關標籤/搜索