一次典型的TFS故障處理:域控失聯

問題描述

忽然收到客戶報告,開發人員登陸TFS系統時,出現登陸異常現象。即便輸入了正確的帳戶和密碼,TFS系統任然提示從新登陸的頁面,致使用戶沒法打開TFS系統。數據庫

即便登陸成功,在修改代碼或者修改工做項的工程中,系統時而提示「管理員取消了操做」。服務器

現象以下圖:微信

image

處理過程

1. 接到報告後,咱們馬上在多個客戶端上驗證,重現了用戶反饋的問題,並確認問題出在TFS系統服務端,而不是個別開發人員計算機的問題。網絡

2. 根據問題現象,迅速排查TFS服務器中的日誌和配置信息,發現DNS正常,數據庫和應用服務器之間的訪問都正常,使用數據庫客戶端訪問單臺數據庫,均可以正常訪問。可是出現一些奇怪的現象:運維

  • 使用數據庫客戶端訪問SQL Server AlwaysOn的集羣IP,系統提示提示「目標主體名稱不正確。沒法生產SSP1上下文」,以下圖。
  • TFS集羣中的全部服務器出現不能訪問域控服務器(AD服務器)的現象,
  • TFS服務器到域控服務器之間的TCP 135端口不通。

TFS服務器系統的認證方式是經過AD服務器實現的,沒有AD服務器提供的基礎認證服務器,系統是不可能正常運行的。測試

由此,咱們判斷TFS系統異常的緣由是因爲不能訪問域控致使的。結合當天運維組調整生產區和測試區的防火牆策略,初步判定是防火牆的策略致使了TFS系統和域控之間的網絡隔離。日誌

image

3. 咱們迅速聯繫了運維組負責人,並將相關技術人員拉入到微信羣,協同分析緣由,尋求迅速解決問題的方案。blog

解決方案

通過運維組相關人員分析確認,當日變動的防火牆策略阻擋了TFS服務器和域控之間的135端口通訊。開發

運維人員當即取消TFS系統和域控之間的防火牆策略。防火牆策略生效後,能夠看到TFS系統能夠正常訪問域控服務器,TFS服務器也馬上恢復正常,服務器不須要作任何重啓操做。get

通過驗證,TFS系統的基本功能(例如登陸、修改工做項、需改代碼)都恢復正常。

總結教訓

這是一次比較典型的TFS服務器故障處理過程,經過總結分析本次故障的緣由和處理過程,相似問題應該注意如下幾點:

1. 防火牆策略調整前,須要提早(至少2-3日)通知TFS系統的負責人,以便提取作好相關的調研和預備方案

2. TFS系統依賴的系統(例如域控服務器、郵箱服務器、DNS服務器、需求管理平臺等)作相關調整或升級前,須要提早通知TFS系統負責人,以便提早作好相關準備

3. 相關配置調整後、相關係統調整升級後,須要通知TFS負責人驗證,是否對TFS系統產生了直接影響


微軟DevOps MVP 張洪君 http://www.cnblogs.com/danzhang

--End--

相關文章
相關標籤/搜索