軟考架構師(10)——系統的可靠性分析與設計

全文連接:http://www.javashuo.com/article/p-ofmsztfa-gz.htmlhtml

1、可靠性概述

概念:

可靠性分析與設計時系統分析與設計、系統集成階段應該重點考慮的問題。數據庫

可靠度、可用度、可維度、平均無端障時間、平均故障修復時間及平均故障間隔時間服務器

可靠度計算:網絡

系統故障模型 

故障千差萬別,可是能夠利用故障模型對其故障表現進行抽象數據結構

一、邏輯級的故障模型
二、數據結構的故障
三、軟件故障和軟件差錯
四、系統級的故障模型負載均衡

系統可靠性模型

1:時間模型:性能

最著名的時間模型是由Shooman提出的可靠性增加模型,這個模型基於這樣的假設:一個軟件中的故障數目在t=0是是常數,隨着故障被糾正,故障數目逐漸減小,在此假設下,一個軟件通過必定時間的調試後剩餘故障的數目可用下面的來估計操作系統

2:故障植入模型設計

其目的是以程序的錯誤數做爲衡量可靠性的標準調試

3:數據模型

在數據模型下,對於一個預先肯定的輸入環境,軟件的可靠度定義在n次連續運行中軟件完成指定任務的機率

3、可靠性設計(系統配置方法)

1:冗餘技術

冗餘機制主要分爲:結構冗餘,信息冗餘,時間冗餘,冗餘附加

 

防止故障致使系統失效,兩種技術: 
1)、故障掩蔽 
防止故障形成差錯

2)、系統重組 
防止差錯致使失效

這兩種技術都創建在資源冗餘的基礎上。如前所述,資源冗餘包括 硬件冗餘、軟件冗餘、時間冗餘和信息冗餘。

(1)硬件冗餘

硬件冗餘最經常使用的是三模冗餘(TMR),三個相同的模塊接收三個相同的輸入,產生的三個結果送至表決器。表決器爲多數表決,一個故障,另兩個正常,則輸出正常結果。顯然,正常的機率更大。

(2)信息冗餘

信息冗餘指的是在數據中附加冗餘的信息以達到故障檢測、故障掩蔽或容錯的目的。 
應用最普遍的是 
一、海明校驗碼 
二、奇偶校驗碼(CRC)。

冗餘技術中最經常使用的兩種方法是重複線路和備份線路。重複線路指並聯,雙保險;備份則是失敗還能補救。

自檢常配合冗餘一塊兒使用。

2:容錯技術

軟件容錯技術中若是遇到故障通常採起兩種策略進行恢復:前向恢復策略和後向恢復策略

1)單機容錯

(1)、自檢

系統在發生非致命性故障時能自動發現故障和肯定故障的性質、部位,並自動採起措施更換和隔離產生故障的部件。

 (2)、冗餘

2)雙機熱備份

一種軟硬件結合的較高容錯應用方案。由兩臺服務器和一個外接共享磁盤陣列櫃、雙機熱備軟件組成。磁盤陣列卡非必須,能夠在這兩臺服務器中採起RAID(獨立冗餘磁盤陣列)卡來代替。

雙機熱備份方案中,操做系統和應用軟件安裝在兩臺服務器的本地磁盤,而數據則經過磁盤陣列集中管理和備份。一臺服務器出現故障,另外一臺頂上,實現服務不間斷。

雙機熱備份採用「心跳」方法保證主系統與備用系統的聯繫。

雙機熱備份根據兩臺服務器的工做方式,有3種不一樣模式:

(1)、雙機熱備

一臺工做,一臺時刻準備着。數據同時往兩臺機寫入,保持同步。一旦工做機出現故障,備機經過軟件自動或手工切換。
使用最廣泛的方式。但因爲備機可能長期空閒,浪費。

(2)、雙機互備

兩套相對獨立的應用分別在兩臺服務器上運行,彼此互爲備機。其中一臺出現故障,則另外一臺能夠將對方的應用接管過來。
服務器性能要求高。

(3)、雙機雙工

集羣一種形式。兩臺服務器均處於活動狀態,同時運行相同的應用(區別於雙機互備,雙機互備的應用是不一樣的),負載均衡,互爲備份。
一般磁盤櫃存儲技術、WEB服務器、FTP服務器應用較多。

3:服務器集羣

集羣(Cluster)是由兩臺以上節點機(服務器)構成的一種鬆散耦合的計算節點集合,爲用戶提供網絡服務或應用程序(包括數據庫、Web服務和文件服務等)的單一客戶視圖,同時提供接近容錯機的故障恢復能力。

1.集羣的分類

(1)高性能計算科學集羣:以解決複雜的科學計算問題爲目的的集羣系統,其處理能力與真正超級並行機相等,而且具備優良的性價比。

(2)負載均衡集羣:使各節點的負載流量能夠在服務器集羣中儘量平均合理地分攤處理,這樣的系統很是適合於運行同一組應用程序的大量用戶。每一個節點均可以處理一部分負載,而且能夠在節點之間動態分配負載,以實現平衡。

(3)高可用性集羣:爲保證集羣總體服務的高可用,考慮計算硬件和軟件的容錯性。若是高可用性集羣中的某個節點發生了故障,那麼將由另外的節點代替它。整個系統環境對於用戶是透明的。 

集羣技術指一組相互獨立的服務器在網絡中組合成單一的系統進行工做和管理,從而提供高可靠性的服務。

大多數狀況下,集羣中的全部計算機擁有一個共同的名稱,集羣內任一服務均可被全部網絡用戶使用。

集羣內各節點服務器經過一個內部局域網相互通訊,當一個節點發生故障,該節點所運行的應用被另外一個節點自動接管;若是一個應用服務故障,則該應用會被重啓或被其餘服務器接管。

3、備份與恢復

一、聯機備份(熱備) 二、脫機備份(冷備)

相關文章
相關標籤/搜索