在超過千人使用的TFS生產環境中,天天週期性出現沒法正常查看工做項白板、沒法簽入代碼、沒法進行自動化構建、沒法進行報表數據的查看等狀況,真是一個讓人焦灼的問題。做爲TFS平臺支持和運維的團隊,也想進了辦法和方案嘗試解決和減少這個問題產生的影響,通過幾個月的嘗試,最終仍是協同微軟產品技術支持中心的人,一塊兒定位和嘗試解決問題,最後把問題給解決了。數據庫
下面記錄一些整個問題出現和解決的過程。瀏覽器
1, 出現問題的症狀微信
問題症狀大體有兩大類:第一類爲天天的固定時間段,在用WebPortal訪問TFS程序時,瀏覽器一直處於加載的狀態,光標或內容區的加載圖片在沒完沒了的轉圈,轉那麼幾分鐘,誰都受不了,研發的羣裏就炸了鍋了,TFS掛掉的信息就大量拋出來了。第二類爲頁面出去Http500錯誤,頁面上打出AnalysisServer沒法鏈接等字樣,其餘什麼都幹不了了。運維
2, 臨時處理方案大數據
針對第一類問題,運維人員必須立刻重啓部署TFS的IIS應用程序,重啓後程序恢復正常使用。日誌
針對第二類問題,咱們開發了一個程序,週期性訪問TFS門戶,遇到Http 500狀態,程序自動重啓TFSJobAgent服務,並將信息發送到郵件和微信。blog
經過上述方式,維護團隊成員總體提心吊膽的過着日子,時刻要關注着郵件等,並天天定點把服務進行手工重啓,以避免最小頻率的把問題暴露給用戶。圖片
3, 最終問題的排查和解決開發
上述方法總不是長久之計,在實在是沒法解決的狀況小,協調微軟的技術支持開了一個緊急的Case支持。把各類系統日誌、IIS日誌、DB日誌、TFS日誌發過去,經過系統的分析,最終歪打正着地把讓上述問題不在週期性的重現了。部署
解決問題的最終方法是調整TFS後臺分析數據庫的運行頻率便可。修改方法以下:
打開參數設置WebService
修改更新分析服務頻率參數
查看結果
經過設置,通過一段時間觀察,TFS服務運行正常了,困擾了咱們幾個時間,耗費大量時間的問題得以解決。
最後來一個總結,經過此次在真實環境中使用SQl Server的Analysis Service,數據倉庫到Cube中的增量處理,在大數據量的狀況下,特別是維度中有較多層級關係結構的,在進行增量更新時,必定要給增量處理預留足夠的時間。還有就是對於集成應用該產品的TFS或者其餘產品,在支持大數據量業務的環境中,必定要考慮這個問題。要不面對這個問題時,真的多是要浪費不少的時間和精力,走許多的彎路。