系統管理員必須瞭解的六大鐵律

編輯導讀:系統管理員們踏上崗位,都已經具有了一些有關係統和服務的知識,如如何搭建生產環境,如何備份,如何監控系統等等,這些知識可能來自學校,可能來自自學。然而在工做了數年以後,系統管理員們對生產環境中的操做又會有了不少新的瞭解。下面,資深運維專家Paul Venezia爲咱們總結了他認爲系統管理員在生產環境中必須遵照的六大鐵律。這是一些學校裏不會教的知識。遵照這些規則,你幾乎能夠解決任何一個問題。數據庫

在複雜的數據中心基礎設施中,這種能力可讓你經過豐富的經驗和自身的知識快速而準確地發現問題之所在。這種能力只可意會,不可言傳。沒有人會提供和「超天然故障排除」有關的認證的。安全

可是,那些重量級的問題解決專家都會遵照一些通用的,不成文的規則。這是我本身使用的六個規則。注意,它們適用於大多數狀況,可是並非全部狀況。服務器

一、永遠不要修改服務器或網絡設備的鏈接接口網絡

雖然這聽上去很簡單,可是,使人吃驚的是,人們常常會修改他們用於鏈接到某個設備的網絡接口的屬性,這種行爲的失敗率很高。有時,這條規則多是可選的,可是,若是有一種方法能夠排除潛在的隱患,何樂而不爲呢?若是你不得不修改這個接口,能夠在這個接口上配置一個輔助IP(secondary IP)——經過另一個設備或子網,串行控制檯,KVM等來鏈接。若是設備放在遠程的辦公室裏(那裏沒有IT職員),那麼這絕對是一條真理。運維

二、保證老是有辦法回到原點ide

不管什麼時候,只要有可能的話,都要提供一種能夠把問題恢復到原始狀態的方法。這意味着,在對故障磁盤作任何修改之前,應該爲這個故障磁盤作一個映像,備份整個目錄結構(你不可能知道你之後須要哪些文件,這樣能夠以防萬一),或者,在你胡亂擺弄一個已經出現故障的操做系統之前,應該在物理服務器上抽取出這塊磁盤的RAID1陣列。固然,在虛擬機環境下,這會更加容易一些,由於你能夠簡單地作一個快照。工具

三、文檔,文檔,仍是文檔操作系統

在全部這些規則中,這條規則也許是你們最少遵照的規則了。毫無疑問,應該把一個問題和解決方法文檔化。當你處在混亂狀態之中的時候,你的解決方法也許並不明智。這就是說,當一個問題塵埃落定之後,要保留一份「屍檢報告」,經過這份報告,你能夠從新檢查當時那個解決方案採起的步驟和途徑。把它寫下來,而後把它保存在安全的地方,最好是放到公司內部的wiki上;而且,應該備份到幾個不一樣的地方。日誌

推薦閱讀:系統管理員應該怎樣高效的書寫文檔htm

四、在IT領域,不存在魔法,可是卻存在幸運

就像 Thomas Jefferson 說的那樣:「我發現我工做的越努力,我就越幸運。」在IT領域,也是這樣的。你花費越多的時間來研究你的基礎設施,關注路由器,交換機,服務器和其餘設備的特定的工做條件,你的基礎設施就會運行的越流暢。這些平常工做可讓你在問題的早期階段就發現這些問題,當問題真的發生的時候,你能夠更加快速地做出反應。另外,在IT領域,有不少種方法能夠「製造」幸運。例如,使用一些工具,讓網絡設備配置的備份自動化;若是使用這種方法的話,當你的交換機發瘋的時候,你能夠在幾分鐘內恢復它,而不是幾個小時。

推薦閱讀:系統管理員最須要自動化的十大任務

五、在你修改每一個配置文件之前,要對它們進行備份

這條規則只適用於Unix服務器和幾乎各方面的配置都提供了配置文件的網絡設備。在你弄壞敏感的配置之前,首先對交換機和TFTP(Trivial File Transfer Protocol)主機的配置文件進行備份。在Unix系統上,能夠簡單地把something.conf cp到 something.conf.orig。

在必要的時候,若是想恢復到過去那個良好的狀態,只須要簡單地把文件拷貝回去,而後重啓那個服務就能夠了。由於註冊表的存在和Windows喜歡把簡單的概念複雜化,因此,在Windows系統上,這一般是不可能的。即使如此,你仍是能夠在胡亂擺弄註冊表之前,對註冊表進行備份,這樣的話,若是天下大亂了。你能夠從新導入備份的註冊表文件。記住:當你對Windows註冊表進行修改的時候,服務器的生命就掌握在你的手中。

六、監控,監控,仍是監控

一點點預防工做就能夠省去一個月的週末加班時間。你應該對你的數據中心的方方面面進行監控,從房間的溫度,機架,和服務器,到服務器進程檢查,正常運行時間檢查......你還應該爲全部網絡設備構建一個集中式的日誌系統,除此以外,你還應該安裝一些趨勢分析工具來監控帶寬利用率,溫度,磁盤空間的使用率,和其餘的參數。當這些參數超過正常的閥值的時候,那些監控工具應該經過必要的手段來通知你。

若是在一個數據庫因爲分區過滿而被破壞的一個小時之前,能收到一個email或短信,那麼能夠省去無數的工做時間和宕機時間。對你的數據中心進行監控刻不容緩。

推薦專題:Linux監控工具的展覽館

這些規則不只僅是須要遵照的規則——在你平常的工做中,這些規則應該是貫徹始終的。在IT領域中,對於許多人來講,它們是核心理念,可是對於其餘人來講,它們是神祕的——有點像忍者。

相關文章
相關標籤/搜索