RAS(Reliability,Availability and Serviceability)是 IBM 提出的概念,它很好的描述了做爲軟硬件的三個指標:穩定性、可靠性和適用性。其中軟件的適用性或者服務性是指在軟件發生問題之後,如何更快速更便捷的解決問題,從而提高用戶體驗的特性。本文主要針對 IBM Systems Director 中的適用性和服務性部分相關功能進行介紹。IBM Systems Director 是一個適用於大規模機羣的管理的軟件。所以,用戶的使用環境是複雜多變的,在出現一些問題的時候,經過相關服務工具可以儘快、儘量全面收集當前機器的用於診斷和調試的信息,併發送給 IBM 的技術人員的話,能夠爲技術人員提供至關的便利。該服務工具支持全部能夠安裝 Director 的平臺。從 IBM Systems Director 6.2 版本開始,服務工具就已經可使用了。數據庫
本文主要包含了如下兩個工具在 Director 6.3 中的自定義配置和使用方法,針對 6.3 以前的版本,本文並不徹底適用。服務器
FFDC 事件是當 Director 產生一些問題時會生成的事件,這些事件的內容對於技術人員進行問題調試和診斷有重要的意義。併發
Logcollector 是針對 Director 軟件專門定製的日誌文件收集器,它提供了不少便捷的選項和較完整的日誌診斷數據收集功能。ide
FFDC工具
FFDC 機制概述調試
First failure data capture(FFDC) 工具是 WebSphere 小組開發的一款能夠在第一次異常發生時對其進行詳細數據捕獲的工具。咱們將其移植進入 IBM Systems Director ,並對其功能進行了進一步的封裝,從而使其可以針對 Director 這款軟件中的各類異常數據進行捕獲。FFDC 機制在 Director 啓動時隨之啓動,而後監聽異常數據,直至 Director 被關閉。日誌
FFDC 事件日誌事件
FFDC 機制在 Director 中主要用於關鍵性步驟中的各類異常,記錄下這些異常的詳細代碼跟蹤和調試信息。在 Director 中,不少重要步驟中都加入了 FFDC 機制的檢測,當出現問題的時候,會自動產生 FFDC 的事件日誌。有兩種方式能夠看到這些事件日誌狀況。ci
經過 Director 界面開發
在 Director 6.3 的界面上點擊系統狀態和運行情況下的事件日誌,就能夠看到相關的 FFDC 事件。這類事件的特色是其事件文本總被標註爲「管理服務器發生軟件異常」,同時會以警告級別告知該類事件的嚴重性。同時會提供發生此事件的源機器的主機名稱。
點擊某一個事件,則能夠看到這些事件日誌中包含的更爲詳細的信息,包括該軟件異常第一次發生的時間,接收到該事件的時間,以及一些提供給 IBM 服務支持人員的更詳細的信息。在 FfdcIncidentUri 這個屬性中,咱們提供了一個詳細記錄該事件日誌的文件路徑,能夠經過提供的文本文件查看更多的關於該軟件異常的信息。
在日誌文件中
在上面介紹到,經過 Director 的界面能夠看到該 FFDC 事件的信息,並能夠針對每一個不一樣的 FFDC 事件,找到對應的日誌文件位置。在 Director 中,每一個 FFDC 事件都會產生獨立的日誌文件存放在 DirectorRoot/log/ffdc/logs 目錄下,DirectorRoot 是 Director 的安裝目錄。例如,在 Linux 或 Unix 系統中,默認會放在 /opt/ibm/director/log/ffdc/logs 目錄下面。可是由於 FFDC 事件日誌的文件名是一串隨機的數字串,沒法從中找到咱們須要的日誌文件。因此須要首先查找 Ffdcsummary.txt 文件,該文件中詳細的描述了每一個 FFDC 事件日誌對應存放的文件名,以及其它不少相關的信息,好比某一個 FFDC 事件重複發生的次數,第一次和最後一次發生的時間等等。經過該文件中的對應關係,就能夠找到想要尋找的事件日誌文件名。
FFDC 高級功能使用
不一樣於以前的版本,Director 6.3 中的服務和支持管理器隨着 Director 軟件的安裝一塊兒被默認安裝在機器上。對於已經安裝 Director 6.3 的用戶,能夠經過設置中的服務和支持管理器設置,勾選「容許將 Systems Director 管理服務器軟件質量事件數據傳送給 IBM」選項,這樣在聯網狀態下 FFDC 的事件日誌會自動上傳到 IBM 的數據庫,便於咱們的支持和服務人員進一步的分析調試。