This article has been published on ‘Network Administrator World’ in 2007, copyrights belong to ‘Network Administrator World’.
It was firstly posted on 51CTO blog; no transmission, re-publication, or printing is allowed without explicit authorization of the author.
本文已與2007年刊登在《網管員世界》,版權歸《網管員世界》全部。網絡首發51CTO博客,轉載請務必註明出處並告知本人。
直面故障,我
們
該怎麼作
?
劉志勇
做爲一個網絡管理員,惟一高興的是完成最後一個任務。這就是這個職業的魅力和生命之所在。之前咱們已經許多
次
精疲力盡,而後放棄。可是,我將在本文儘量幫助廣大網絡管理員下降現實的困難。
我願意和讀者們共享本身的經驗和祕訣
。
窺視網管員的工具包
真正的硬件工具
每一個網管員因爲各自實際狀況不一樣,隨身攜帶的真正的硬件工具也未必相同。個人硬件工具包包括:螺絲刀、網卡、牙醫鏡和微型手電筒、線纜測試儀、錄音設備等東西。下面我講一下這些工具都幹什麼用。
螺絲刀:
這個工具毋庸多言,就是拆開機箱用的。但有些服務器,好比早期的
Compaq
服務器(如今不多見了,說實話我也幾乎沒有見到過),這個螺絲刀就必須是
Compaq(Toex)
螺絲刀,其末端是星形的,普通的十字螺絲刀是不能使用的。
網卡:
用於在工做站或服務器上修復常見的問題,有時候能夠
用來
確認原來的網卡是否有問題。
牙醫鏡和微型手電筒:
這是個組合工具,可讓我在緊急時很容易看到組件的反面和主板。
線纜測試儀:
用於網絡佈線的故障和測試定位,若是線纜測試儀很高級,可對線纜進行週期性檢測,確保佈線系統的質量。在評估認證後,將電纜測試儀存儲的測試結果複製到計算機上並打印出來,做爲網絡佈線基準文檔。
錄音設備:
相信讀者看到這設備確定驚訝得下巴都掉了
……
其實,我也是從
歷次的
教訓中獲取的
經驗
。還記得有多少次在一個複雜的故障檢修過程當中一次又一次執行相同的步驟和操做嗎?就比如在家中丟失了東西之後在已經找過的地方反覆搜尋,
這
合理嗎?我是從第一分鐘起,將我所採用的每個步驟口述到錄音設備中,這種記錄能使我回顧所採用的方法,並決定是否還要遵循檢修的路徑以及結果的本質。我之因此採用口述的方式,而不是用紙筆來記錄故障檢修的過程就是由於:厭倦!人們每每能夠手寫記錄下故障檢修過程的前面幾個步驟,或者前面幾個小時所採用的步驟,但會隨着時間的推移,厭倦
會
致使這種工做的中斷:所採用的步驟沒有記錄或者是跳過了記錄。而口述是一種相對比較輕鬆的記錄故障檢修過程的工做,能記錄下自始至終的每一步。
其餘的工具,要視乎你的工具包是否還有額外的空間,以及你實際的狀況,好比
,
昂貴的
FLUKE
網絡測試儀器,並非每一個
人
都會配備的。
軟件工具包
網管員能夠根據本身的習慣、愛好等選擇適合本身的軟件工具包,軟件工具包的形式能夠是
LiveCD
或者集成了維修工具的
Windows P
E
啓動光盤,也能夠是別的光盤,我用的
Windows P
E
啓動光盤是深山紅葉工具光盤,很好用,網絡上有不少與之相相似的工具光盤。
Live Cd
我選擇的是
Knoppix
漢化版,
Live CD
的選擇有不少,好比
Trinity Rescue Kit
等等,均可以做爲急救用的
Live CD
。
如今閃存容量愈來愈大了,
加之
如今的新電腦都支持從閃存啓動
系統
,咱們徹底能夠製做成
Live USB
,在必定程度上比
Live C
D
更爲靈活。
即便不作
Live USB
,
也能夠把經常使用的工具拷貝到閃存內,以備急需。
關於這方面能夠參考我在
2007
年
5
期《電腦自作》第
96-101
頁刊登的《閃存擴展
隨心而動》文章。
還有一些驅動軟盤,雖然說如今軟盤和軟驅近乎絕跡了,但有些場合仍是須要的,好比
RAID
驅動程序等等。
This article was published on Network Administrator World in 2007, and the copyrights belong to Network Administrator World. The article was first posted on 51CTO blog, no transmission, re-publication, printing allowed unless with explicit authorization of author.
本文已與2007年刊登在《網管員世界》,版權歸《網管員世界》全部。網絡首發51CTO博客,轉載請務必註明出處並告知本人。
雜項
其餘還有一些亂七八糟的東西,我帶的就有小門墊、工做服、套衫、休閒鞋、巧克力什麼的。很驚訝吧?嗯。我帶的小門墊的真實做用是在擁擠的服務器房繞電纜的時候,我跪在上面用來保護個人膝蓋。而不是跪下向客戶和管理人員請罪,哈哈!
不少公司對員工的着裝有很嚴格的要求,必須穿正式的服裝,不能穿休閒的,那麼在髒亂的庫房和機房裏,這一身正式的、嚴肅的服裝是否是很讓你爲難?我帶一套工做服、套衫、休閒鞋就是爲了應付這種窘境的。
巧克力是幹什麼的?不怕各位笑話,我這人有時候有點膽怯,面對未知的故障的時候有時會感到恐懼,這時候吃點巧克力能提升血糖幫助消除恐懼感。
筆記本
從必定意義來講,它能夠說是工做日誌
。
你能夠用紙媒介的本子來記筆記,也能夠用電子版形式的,只要能達到目的就好,我用的是電子文檔。筆記本對於我來講,它的做用就是
告訴我
:出
現
問題時,哪些發生了變化。
當出現一個新的問題時,所要問的第一件事
每每
就是出現問題以前,是否有什麼變化。
任何網絡操做系統都是一個有問題的系統,有時由於一些不能解釋的緣由,甚至大部分無害的變化都有可能變得一團糟。若是你的筆記本,記錄了每一個服務器、每一個設備全部變化的詳細日誌
,
能節省你用在故障檢修上的數
個
小時。做爲我來說,我有每一個服務器單獨的
Excel
電子表格,記錄了安裝新軟件包、安排從新啓動與否、添加新驅動器或者別的軟件等等,還有時間、日期、服務器每次變化的屬性。
若是在本週對服務器所作的更改,在下週引發了問題,那麼你的筆記本就
將
發揮很是大的做用。
筆記本對於任何故障的成功解決很是重要。一我的對管理機器明晰,而他的同事卻什麼
都
不懂,這就毫無心義了。我認爲,這是一種很是危險的處境,特別是問題中的任務對網絡的安全相當重要。若是一旦這我的發生意外,其他的人該怎麼辦呢?
從實踐經驗來看,隨着新過程的發展將其文檔化的作法是值得鼓勵的。我就有過這種經歷:曾經完美處理過一些事情,但僅僅過了一個月以後就遺忘了!這時候我多麼但願本身之前就記錄到筆記本上啊!
這種狀況常常會發生。
實際上,根據個人經驗,當出現問題時,不管是打印驅動程序被破壞,仍是客戶端連不上網絡,都應該記筆記。十有八九在開始進行以前,當處理問題以後,回到辦公室就會忘記本身作了什麼。
想象一下,若是處理問題時和不斷升級必須有一段停機時間,回想使用的規程可能沒有歸檔,會怎麼樣呢?
筆記的歸檔也很重要。雖然歸檔的內容有一些可能會過期了,好比
Windows NT
,但不管什麼方法,都要保存起來。一些詳細任務可能再次適用於當前的網絡。另外,當按照新規程部署或者進行
Beta
測試時,歸檔就更爲重要。若是堅持這種作法,這樣任何人走入服務器機房均可以按照歸檔的筆記執行任務,這對網絡管理工做不是很好嗎?
This article was published on Network Administrator World in 2007, and the copyrights belong to Network Administrator World. The article was first posted on 51CTO blog, no transmission, re-publication, printing allowed unless with explicit authorization of author.
本文已與2007年刊登在《網管員世界》,版權歸《網管員世界》全部。網絡首發51CTO博客,轉載請務必註明出處並告知本人。
故障檢修祕訣
Hello
,如今咱們終於到達了文章最重要的部分。
個人心得
記得
MCSE
曾經說過,超過
58%
的故障檢修成功是基於經驗的,不管這種經驗的知識來源於通常計算機系統知識仍是所面對的具體問題的知識。剩下的故障檢修成功因素包括運氣,研究工做和你本來的解決問題的能力。
我認爲,重要的是:提升你的故障檢修技巧是長久之計,而不是獲得後就能夠忘記的結果。
故障檢修技巧雖然主要是經過積累經驗來提升,但實際上,也能夠經過閱讀(文章、博客和論壇等)、培訓和其餘的方式得到。
若是你缺少使用
Linux
服務器的經驗,這並不意味着在解決問題時你就就必定缺乏經驗,即便你具備豐富的技藝也可能只在特定的故障檢修情形中看到其餘人會忽視的方面。
Nike
有一句廣告詞,我很讚揚,這就是:
Just do it!
就是說,不要讓你的經驗阻礙你獲取更多的經驗!
故障檢修的步驟
這裏列出的步驟,是用於解決全部問題的「基礎」,是指導解決問題的基礎。
故障檢修的步驟有:識別問題、診斷故障、找出解決方案並實施、確認故障是否解決、記錄解決方案。
識別問題:就是鑑別問題是屬於硬件問題仍是故障問題。
診斷故障:區分故障的症狀和原由。確認系統故障是否因爲底層的、基本的因素所致;肯定這樣的症狀,是否有利於解決其原由。
找出解決方案並實施:毫無疑問,這個步驟一般是反覆的,一次又一次的過程。
確認故障是否解決:上個步驟的解決方案通常須要在不一樣條件下測試屢次。
記錄解決方案:有時候,我常常成功的實踐了一個很好的解決方案,可是忘記了這是在之後遇到一樣的問題時更好解決問題的一個關鍵。這種狀況下,就不得不從新學習這個方案,很明顯,花費幾分鐘的時間記錄在排除故障過程當中的每個解決方案很快就能使你得到巨大的意外收穫。
總結
微軟公司提出過一個故障檢修方法論:謂之
D.E.T.E.C.T
。這是由一組微軟微軟技術支持工程師創立的方法,爲咱們提供了一個策略。實際上,這些步驟是放之四海皆準的,不管是交換機故障,仍是
Windows
服務器故障,抑或是
Linux
服務器故障,都適用。
D.E.T.E.C.T
是:
D
Discover
發現問題
在用戶層次上與用戶交談,試着瞭解他們使用的軟件(若是可能的話,包括髮布的版本)以及他們的硬件是否在硬件兼容性列表內。問題表現出的症狀是什麼。
E E
xplore
探索界限
是否可以鑑別自從上一次報告系統正常以來都發生了那些變化?可否鑑別問題發生時運行的是什麼軟件嗎?
T T
rack
跟蹤可能的方法
你能夠從處理這些故障中學習並經過跟蹤所採起的步驟,避免陳舊的、效率低下的嘗試——錯誤的方法。
E E
xecute
實施方法
撇開管理問題,以便在第一個方案的嘗試失敗時不會受到其它部門的干擾。若方案
A
失敗就應考慮方案
B
。不要忘記在執行解決問題的任務以前備份重要的系統和應用程序。
C C
heck
檢驗成功
T
總結
無論是什麼樣的故障排除方法,本質上全部的方法都是聽從一個基本的模式:
發送者——→接受者
輸入——處理——輸出模式
按照微軟
D.E.T.E.C.T
方法論,進行故障查找明顯的是成功解決系統問題的第一步。
故障檢修的定義
方法論
相信不少網管員都會嘆息過:若是可以恢復這一切就行了。
在很大程度中,故障檢修是一種方法論。木工有一句話能夠引用在這裏:兩次測量,一次切斷。網管員在任何狀況下都應三思然後行。
聽從故障排除的黃金規則能夠減小你的痛苦:「一次只改變一個變量。」一次改變一個變量,而後進行成功或失敗的測試,這樣就能有效的證實咱們排除故障工做工做的結果。這就是方法論的精髓。
我再次強調:在排除故障時,一次一個變量並進行測試。相信我!
一小時原則
經驗代表,缺少經驗的網管員,尤爲是剛入行的,更容易誤入歧途。在查找問題時視野狹窄或者錯過了即時的觀察就有可能誤入歧途。狹窄的視野是一個陷阱,沒有考慮到外部因素可能會產生問題。外部因素有時也會致使災難。在我剛入行的時候,老是從主管的角度來觀察網絡環境,但實際上,總有一些在我控制以外的因素也會對咱們產生影響。
在任何一種狀況下,基本上應該將排除故障恢復狀態尋求幫助的工做時間限制爲一小時。我比較傾向的方法是隻進行一個小時解決服務器等問題的工做,若是不能解決問題或者保證合理的結束,就給技術支持小組打電話或者與這個領域的同行進行探討。必定要充分利用在這個領域中的同行專家資源。
在一些技術論壇,好比網管員世界論壇、
51CTO
論壇能夠找到該領域的同行,也可加入他們的
QQ
羣,提供和接受解決所遇到問題的建議。根據一小時原則,當你已經花費了一個小時試圖解決問題時,馬上去
QQ
羣或者論壇呼叫同行。
故障時間價值的計算
故障時間的價值,也是在故障檢修時要考慮的一個因素。
可是根據個人實際經驗,不少工做人員可能會以系統故障爲藉口中止工做而且可能回家,請問,在辦公室中,你看到過員工利用計算機故障時間來回復耽誤的電話嗎?沒有。不少員工可能只是說計算機系統崩潰了而沒法工做。
我以爲故障時間價值的計算,不是三言兩語可以說明白的,總之,系統故障時間的代價決定了你解決問題的方法,系統故障時間是很是昂貴的,即時在一個很小的企業中,你也能夠估算出系統故障時間的代價究竟值多少人民幣。
This article was published on Network Administrator World in 2007, and the copyrights belong to Network Administrator World. The article was first posted on 51CTO blog, no transmission, re-publication, printing allowed unless with explicit authorization of author.
本文已與2007年刊登在《網管員世界》,版權歸《網管員世界》全部。網絡首發51CTO博客,轉載請務必註明出處並告知本人。
故障檢修圖
我寫書或者寫技術文章,老是從一個提綱或者腦圖開始。若是故障檢修也像這樣,那麼會更好的進行,而且更加有效。個人經驗是,在白板上建立故障檢修路線圖。每次當我遇到困難的時候,離開機房回到本身的辦公室——這每每是解決問題的靈丹妙藥——能夠靜下心來,用清晰的和平衡的頭腦進行思考。
經過在白板上建立故障檢修圖,你能夠在工做中包含不少業務管理者。不少業務管理者都熟悉在會議室中反映狀況,那裏是很溫馨的地方。經過在問題的解決方案中包括業務上的管理者,咱們不只可以得到新鮮的血液和新鮮的看法,並且還可以在技術和業務團體之間樹立正面的管理。經過這樣的手段,能夠向他們宣傳解決方案,並且更重要的是,能夠迫使他們接受咱們的方案。無數的研究以及你本身的工做經驗已經說明有領導們的支持時,成功的概率會更高。
學習曲線分析
實際上就是分析解決故障是否在本身的能力範圍以內。這裏提供一個表格:
問題的本質
|
技能
|
學習曲線
|
建議解決方案
|
簡單
|
高
|
低級
|
自行解決
|
常常發生,不困難
|
中
|
中級
|
在通過一些學習和陰暗解答以後解決問題好處包括可以很好的利用學習時間。由於這種類型的問題頻繁發生,一旦進行學習並找到了解決方案,那麼下一次解決問題就很容易。
|
頻繁發生,問題介於簡單和困難之間
|
低到中
|
中級到高級
|
這時與技術顧問或專家組成團隊就頗有意義。可讓專家展現解決方案,以便在未來可以獨立的解決問題。
|
在壽命期間只發生一次,很是困難
|
不存在
|
很高級
|
交給別人作。保留一個專家來解決問題,並努力進行解釋。
|
這個表格展示了一個決策模式,能夠用於解決問題和利用外部專家的技能時。
對於前兩種狀況,可能要很好的利用你的時間來解決問題。對於後兩個狀況而言,明顯的須要幫助才能將系統故障時間和公司與相關問題的損失減小到最小的程度。
在早期排除故障的工做中,瞭解你要解決的問題的本質,並肯定你是否可以獨立解決問題,仍是須要其餘的幫助以增強工做。
總體衡量:過多的檢修,過少的時間
工做的成功是以總體衡量的,不要陷入故障檢修的黑洞中而沒有很好的完成其餘工做。
實際上,若是給予足夠的時間,不少網管員都可以解決問題。可是,時間對於咱們每個人都有限制。你會發現並無足夠的時間來完成想要作的任何事情。你有沒有發現過這麼一個狀況:從星期一開始查找一個故障,當擡頭看時間時卻發現已是星期五下午了?是否注意到了在咱們埋頭查找問題時,其餘的工做已經堆積如山?
即時你有很高的排除網絡故障的技能,但也可能被提高並領導
IT
部門,你是否明白,你的角色已經改變,你應該將故障檢修的任務委派給一個下屬。由於故障檢修的時間問題中包含有核心能力。
結交更多的同行朋友
不少時間,都是花費在爭論問題到底是與硬件有關仍是與軟件有關。
若是你在一方面很強,例如軟件方面,那麼正在查找沒有解決方案的軟硬件問題時,而解決方案極可能就從你所薄弱的一方出現。就是說,若是從有優點的一方已在上市解決問題,每每是另外一方致使了咱們的失敗。個人經驗告訴我,不止有一個壞掉的網卡致使了軟件相關的網絡問題!
因此,個人建議是,結交更多的同行朋友!這是查找硬件和軟件相關問題時的一個技巧。
讀者能夠在網管員世界論壇找到相同領域的同行。
回顧上世紀
90
年代,這是怎樣的一個漫長、離奇和有趣的旅程啊!從
Netware
的升起和隕落到
Windows Server
統治的出現,再到
Linux
的崛起,這個過程是至關快的。可是有些事情會一直保持下去,包括對於頂尖的排除故障技能的須要。隨着信息化的進展,對於這些技能的須要、尋找和使用更加明顯,由於,每個網管員再也不被看做是後臺的技術人員,事實上,如今網管員已經引發了高層的重視,由於故障事件是使人難以置信的代價!即便是非技術的高管也可以理解這點。隨着信息化更大的進展,信息化承擔重要任務的、企業範圍內的應用,更多的前臺管理人員須要網管員卓越的排除故障技能來保證這些東西正常運行。
祝大家好運!
This article was published on Network Administrator World in 2007, and the copyrights belong to Network Administrator World. The article was first posted on 51CTO blog, no transmission, re-publication, printing allowed unless with explicit authorization of author.
本文已與2007年刊登在《網管員世界》,版權歸《網管員世界》全部。網絡首發51CTO博客,轉載請務必註明出處並告知本人。
劉志勇
二〇〇七年八月於天津