一次IDC中心機房交換機端口DOWN機故障解析過程

雙十一剛過的次日正午,一切看似風清雲淡的早晨,心想今天中午能夠準時去午飯,忽然羣裏有客服同事發了一條某某站點沒法打開,需處理的信息。服務器

一次IDC中心機房交換機端口DOWN機故障解析過程

忽然有種不詳預感,複製網址訪問,卡了老半天,站點標題先是若隱若現,最後訪問仍是完全失敗,因而遠程服務器,嘗試幾回鏈接無果,還覺得是本身網絡緣由(有時遠程服務器時網絡忽然異常會致使再次遠程時會話失敗),因而嘗試訪問該服務器上其它站點狀況,也沒法打開,經過虛擬主機平臺遠程重啓服務器失敗,虛擬主機平臺檢測此服務器失敗。
因而電話IDC電信機房,讓其幫忙重啓下服務器(由於此服務器上部分客戶站點程序存在BUG問題,偶爾出現資源沒法釋放致使服務器DOWN機的狀況),過了十分鐘發現依然沒法遠程聯接服務器,因而再次電話IDC機房讓其爲該服務器接上顯示查看目前服務器啓動狀態,機房回覆系統啓動正常,網絡狀態亦是正常。我以前PING了下機房網關也是正常的,因而以爲奇怪了,沒動過網線頭,重啓系統正常,不該存在沒法聯網的狀況。
因而看了下監控發現監控顯示有好幾臺狀態爲DOWN狀態。
一次IDC中心機房交換機端口DOWN機故障解析過程
什麼狀況監控顯示所有變爲了紅色,再試下遠程這些服務器,均沒法聯接,看了下聯不上的服務器在同一個機櫃,初步排查出是整個機櫃網絡存在問題,爲了驗證,我讓客服幫忙試了一下幾臺服務器上的站點,最終坐實是IDC機房的這個櫃網絡均存在異常。再次電話IDC機房看下是否是機房網絡問題,機房回覆是機房網絡目前正常,答應再幫忙看看。再等了一會網絡仍未恢復,等下去不是個事,又一次電話IDC機房,這時感受機房換人了,應該是正午交接班了,不過聲音感受好像是個平時機房比較熟悉的技術,答應幫忙排查下(此次我直接給機房技術講,讓其排查下上層結點,確定是整個櫃的網絡問題),又過了幾分鐘機房電話過來回復是機房交換機端口down掉了,正在處理,讓稍等一會,頓時我無力吐槽以前機房技術的反饋了。本次事故形成整櫃服務器掉線近1個小時。
一次IDC中心機房交換機端口DOWN機故障解析過程
一次IDC中心機房交換機端口DOWN機故障解析過程網絡

小結:經過這次故障,讓咱們再次熟悉了一次IDC機房故障受理。如何作到快速且精準排除分析故障點,雖然IDC機房是7*24小時支持,但不是24小時都盯着其網絡監控與設備狀態,多數都是有大量反饋的狀況纔會進行關注與查看,所以咱們要隨時掌握主動權,快速分析找出故障點,讓機房儘快協助處理。固然有時這其中也有痛點,遠水救不了近火,這就是託管和雲服務的一大弊端吧,當出現大面積故障和服務中斷時,對於咱們身在遠方的技術來說只能等待着遠方機房技術的處理與回覆,所以務必作好平時的檢測工做和檢查很是必要,另外快速鎖定和精準定位很是重要,這就考驗咱們技術自身的經驗與綜合水平。ide

相關文章
相關標籤/搜索