工做原理:兩臺主機同時運行各自的服務工做且相互監測狀況,當任一臺主機宕機時,另外一臺主機當即接管它的一切工做,保證工做實時,應用服務系統的關鍵數據存放在共享存儲系統中。
高可用性的衡量指標
可用性的計算公式:
%availability=(Total Elapsed Time-Sum of Inoperative Times)/ Total Elapsed Time
elapsed time爲operating time+downtime。
可用性和系統組件的失敗率相關。衡量系統設備失敗率的一個指標是「失敗間隔平均時間」MTBF(mean time between failures)。一般這個指標衡量系統的組件,如磁盤。
MTBF=Total Operating Time / Total No. of Failures
Operating time爲系統在使用的時間(不包含停機狀況)。
高可用性系統的設計
設計系統的可用性,最重要的是知足用戶的需求。系統的失敗只有當其致使服務的失效性足以影響到系統用戶的需求時纔會影響其可用性的指標。用戶的敏感性決定於系統提供的應用。例如,在一個能在1秒鐘以內被修復的失敗在一些
聯機事務處理系統中並不會被感知到,但若是是對於一個實時的科學計算應用系統,則是不可被接受的。
系統的高可用性設計決定於您的應用。例如,若是幾個小時的計劃停機時間是可接受的,也許
存儲系統就不用設計爲磁盤可熱插拔的。反之,你可能就應該採用可熱插拔、熱交換和鏡像的磁盤系統。
因此涉及高可用系統須要考慮:
決定業務中斷的持續時間。根據公式計算出的衡量HA的指標,能夠獲得一段時間內能夠中斷的時間。但可能很大量的短期中斷是能夠忍受的,而少許長時間的中斷倒是不可忍受的。
在統計中代表,形成非計劃的宕機因素並不是都是硬件問題。硬件問題只佔40%,軟件問題佔30%,人爲因素佔20%,環境因素佔10%。您的高可用性系統應該能儘量地考慮到上述全部因素。
當出現業務中斷時,儘快恢復的手段。
高可用性致使計劃內的停機因素有
週期性的備份
軟件升級
硬件擴充或維修
系統配置更改
數據更改
高可用性致使計劃外停機的因素有
硬件失敗
文件系統滿錯誤
備份失敗
磁盤滿
供電失敗
網絡失敗
應用失敗
天然災害
操做或管理失誤
經過有針對性的設計,能夠避免上述所有或部分因素帶來的損失。固然,100%的高可用系統是不存在的。
建立高可用性的計算機系統
在UNIX系統上建立高可用性計算機系統,業界的通行作法,也是很是有效的作法,就是採用集羣系統(Cluster),將各個
主機系統經過網絡或其餘手段有機地組成一個羣體,共同對外提供服務。建立羣集系統,經過實現高可用性的軟件將
冗餘的高可用性的硬件組件和
軟件組件組合起來,消除
單點故障:
消除供電的單點故障
消除磁盤的單點故障
消除SPU(System Process Unit)單點故障
消除網絡單點故障
消除軟件單點故障
儘可能消除單系統運行時的單點故障