爲了有效地維護服務器,服務器管理員必須執行主動的硬件和軟件檢查。而服務器的維護清單必須包括除塵、日誌查看、軟件補丁程序測試等。 |
即便具備服務器的性能和冗餘功能,增長的工做負載整合和可靠性指望也會對服務器硬件形成損害。html
服務器維護清單應涵蓋物理元素以及系統的軟件層配置。還必須考慮到如下事實:完全維護須要的時間、人工時間和測試。使用清單有助於服務器管理員定義目標,並保持IT團隊的正常運轉。linux
1.制定維護程序數據庫
服務器管理員常常忽略計劃維護窗口。不要等到出現故障時纔開始維護;要留出時間進行例行的服務器預防性維護。安全
維護頻率取決於服務器設備的使用年限、數據中心和須要維護的服務器數量。例如,與部署在高效微粒空氣過濾、冷卻良好的數據中心中的新服務器相比,位於設備櫃中的老舊服務器須要更頻繁的檢查。服務器
組織能夠根據供應商或第三方提供商的例行程序制定例行維護計劃;若是供應商的服務合同每四個月或六個月要求進行系統檢查,須要遵循這個時間表。網絡
2.爲準備停機作好準備工具
解決服務器維護清單上的項目以前,首先須要制定計劃。這包括檢查系統日誌中是否有須要更加直接關注的錯誤或事件。若是系統日誌代表特定內存模塊有錯誤,則應訂購替換的雙列直插式內存(DIMM)並將其安裝。一樣,若是有可用的固件、操做系統或代理補丁/更新,請在計劃的維護窗口以前先進行測試和審查。性能
制定明確的計劃以使系統脫機並使其恢復服務。在進行虛擬化以前,服務器及其駐留的應用程序將須要停機才能容納維護窗口,但這迫使服務器管理員在晚上或週末實施維護。測試
虛擬服務器支持遷移工做負載而不是停機,所以服務器管理員能夠將應用程序遷移到其餘服務器,而且只要在底層主機系統上進行服務器維護,它們就將保持可用狀態。在維修以前,須要首先了解虛擬機的去向,將虛擬機遷移到選定的系統,並在關閉服務器進行維護以前驗證每一個工做負載是否正常運行。操作系統
此時,服務器管理員能夠關閉服務器並將其從機架中移除。
3.檢查氣流路徑
在服務器宕機以後,須要目視檢查其外部和內部氣流路徑。清除全部可能阻礙冷卻空氣的積塵和碎屑。
從外部空氣入口和出口開始,而後進入系統機箱,查看CPU散熱器和風扇部件、內存,以及全部冷卻風扇葉片和風道。從機架上卸下服務器以後,須要確保服務器清潔。採用乾淨、乾燥的壓縮空氣清除防靜電工做區上的灰塵或碎屑。
除塵並非一個新的過程,但仍然是必要的。灰塵是一種絕熱材料,所以去除灰塵尤其重要,由於替代的冷卻方案和美國供暖、製冷和空調工程師學會(ASHRAE)的建議已提升了數據中心的工做溫度。灰塵和其餘氣流障礙會致使服務器消耗更多的能量,甚至可能致使組件故障。
4.檢查本地硬盤
服務器依靠內部硬盤進行引導、工做負載啓動和存儲以及用戶數據。磁盤介質問題損害了工做負載的性能和穩定性,並致使硬盤過早故障。使用「檢查硬盤」實用程序之類的工具來驗證硬盤的完整性,並嘗試恢復硬盤上的任何壞的扇區。
採用磁性媒質的硬盤並不完美。其常見的問題包括損壞扇區和碎片化。在發生存儲錯誤後,RAID在保持數據完整性方面有很大的進步,但體積較小的1U機架服務器沒法提供足夠的物理空間來部署硬盤陣列。
只要NT文件系統和文件分配表硬盤文件碎片不會消失,只要文件系統使用第一個可用集羣的硬盤空間便可。碎片會減慢服務器硬盤的速度並致使故障。Optimize-Volume實用程序WindowsServer2016對存儲層進行碎片整理和處理。
5.驗證日誌數據和事件
服務器在事件日誌中記錄了大量的事件信息。沒有仔細檢查系統、惡意軟件和其餘事件日誌,沒有服務器維護清單是不完整的。固然,關鍵的系統問題應當即引發管理人員和技術人員的注意,但無數小問題可能預示着長期的問題。
在檢查日誌時,管理員應檢查報告設置並驗證正確的警報和警報接收者。例如在檢查日誌時,管理員應檢查報告設置,並驗證正確的警報和警報接收者。例如,若是技術人員離開服務器組,則須要更新服務器的報告系統。
還要仔細檢查聯繫方式。若是錯誤發生在工做時間以外,則向技術人員所在公司的電子郵件地址提供發生錯誤的報告將是無效的。
當日志檢查發現長期或重複出現的問題時,主動調查能夠在問題升級以前解決問題。若是服務器的日誌報告內存中的可恢復錯誤,它將不會觸發嚴重警報。可是,若是有重複的狀況代表模塊出現問題,則管理員能夠執行更詳細的分析,以識別即將發生的故障。
若是問題不夠嚴重,不會關閉服務器,管理員能夠將服務器恢復到生產狀態,直到出現替換硬件。
6.測試補丁和更新
服務器的軟件棧(BIOS、操做系統、管理程序、驅動程序和應用程序)必須協同工做。不幸的是,軟件代碼不多是沒有問題的,因此這一難題的部分常常被修補或更新,以修復錯誤、提升安全性、簡化互操做性,以及提升性能。
任何軟件都不該具備自動更新。管理員應肯定是否須要修補程序或升級,而後完全評估和測試更改。
軟件開發人員可能沒法測試每種可能的硬件和軟件組合,所以須要明智地選擇補丁和更新,以免性能問題或工做流程中斷。例如,監視代理程序補丁可能會致使重要的工做負載問題,由於新代理程序佔用的帶寬比預期的要多。
向DevOps的遷移具備較小且更頻繁的更新,這增長了出現問題的可能性。組織仍必須在實驗室中測試任何修補程序或更新,而後才能將其部署到沙盒或測試安裝程序中,而且始終具備還原原始軟件配置的能力。
7.記錄全部系統更改
在維護時段內,服務器可能會發生不少事情,例如硬件、軟件或系統配置更改。服務器管理員完成服務器維護清單後,對他們進行仔細檢查並記錄全部新系統狀態相當重要。例如,更改網絡適配器、添加或更換內存或更新操做系統會更改系統的配置。
依賴系統配置管理工具的組織可能須要更新或發現任何更改,在容許系統從新投入使用以前,將這些更改記錄到配置管理數據庫中。服務器管理員必須更新任何強制的或所需的狀態配置狀態,以容許進行更改。
還要驗證系統的安全狀態,例如防火牆設置、反惡意軟件版本或掃描頻率和入侵檢測設置。安全檢查確保系統軟件的更改不會無心間暴露出在先前配置中關閉的全部攻擊面。
服務器從新聯機後,不要忘記更新任何系統備份或災難恢復(DR)內容。
驗證服務器的備份/災難恢復頻率保持不變,除非必須特別調整任何相關設置以反映服務器的新用例。
本文地址:https://www.linuxprobe.com/server-maintenance-steps.html