AWS事故總結，幾招教你規避風險

時間 2019-12-04

標籤 aws 事故總結規避風險简体版

原文原文鏈接

版權聲明：本文由王煜奕原創文章，轉載請註明出處:
文章原文連接：https://www.qcloud.com/community/article/90687001488360802服務器

來源：騰雲閣 https://www.qcloud.com/community網絡

美國時間 2 月 28 日，亞馬遜AWS弗吉尼亞州數據中心出現單點存儲區域故障，使得其雲存儲服務 S3 出現了較高的錯誤率，形成長達2小時的服務不可用。Netflix、Airbnb 、Slack、Spotify、雅虎網絡郵箱等互聯網服務受到明顯影響。運維

亞馬遜的本次『失誤』也在警示業界全部雲計算廠商，在雲服務日益發展的今天，雲存儲的數據可靠性和服務可用性應該如何保障。當企業應對人爲誤操做、軟件錯誤、病毒入侵等「軟」性災害和硬件故障、天然災害等「硬」性災害，應該如何實現穩定的容災？如何實現高效的容災？如何實現低成本的容災？雲計算

騰訊雲對象存儲服務基於多年海量數據存儲的經驗，針對以上一系列問題，提供五個維度的解決方案：跨地域容災，機房級別容災，集羣級別容災，服務器級別容災和磁盤級別容災。spa

1.用戶如何應對雲廠商單點存儲區域故障？

跨地域級別容災：跨地域自動備份

目前騰訊雲已經在華北大區，華南大區，華東大區，西南大區和東南亞大區提供了數據存儲服務，而且提供『主備數據中心』的解決方案。對象

用戶能夠選擇將主站的數據服務保留在某一區域，同時在上千千米以外保留備份數據，騰訊雲將代替客戶將主數據中心的數據在短期內自動搬遷到備份數據中心，當發生運營商網絡大規模癱瘓或者大面積災難來臨，用戶能夠將服務指向備份數據中心存儲區域，應對異常問題。blog

2.做爲雲廠商，騰訊雲如何避免單點故障問題？

機房級別容災：可用區物理隔離

騰訊雲目前在每一個存儲大區配備了多個可用區，每一個可用區以內配備多個機房。每一個可用區保證必定物理距離，當發生爆炸，洪水等惡劣的物理狀況或者小規模運營商網絡癱瘓，騰訊雲將自動調度數據的寫入和讀取，暫停災難受影響區域的機房使用，保留存量數據不改變。在災難過程當中新的數據寫入和讀取，將遷移到同城的其餘機房或者臨近城市的機房，總體存儲大區的服務不中斷。同時騰訊雲擁有跨機房跨可用區的數據冗餘備份能力。接口

集羣級別容災：不一樣集羣互爲主備

騰訊雲在每個機房中會配備多個集羣，每一個集羣能夠提供完整服務，用戶的數據塊被分佈在不一樣集羣的不一樣服務器中。若是某個特定集羣失去服務能力，修復方式如同服務器異常。該集羣總體暫停數據的寫入和讀取，保留異常現場，將數據寫入遷移到同機房的其餘集羣中，集羣內部開始自動修復邏輯模塊或者存儲模塊。在修復過程當中，用戶能夠從其餘健康集羣中持續獲取數據，服務持續可用。get

服務器級別容災：條帶化打散數據

第1、騰訊雲利用『條帶化』技術，將多備份的用戶數據分解成多個數據塊均勻放置在不一樣服務器之間。第二，集羣的中央模塊會定時巡檢每一個服務器的每塊磁盤的健康程度。第三，一旦檢測出單臺服務器出現異常，會中止對整個集羣的數據寫入，將數據寫入遷移到同機房的其餘集羣中，而後集羣內部針對異常服務器啓動壞盤修復，若是修復失敗，7*24值班的運維人員將人工介入，更換壞盤。在修復過程當中，用戶能夠從異常集羣中健康的服務器中持續獲取數據，服務持續可用。產品

磁盤級別容災：多備份數據冗餘

第一，對於保存在騰訊雲存儲服務中的每一個數據塊，騰訊雲都實現了『RAID備份』，即一份數據會存在多個副本或者校驗碼。第二，騰訊雲利用底層磁盤的接口將其每一個磁盤且分爲多個扇區。採起『心跳響應』管理的模式統一管理全部扇區。服務器的中央模塊會如同如『巡邏員』通常，週期性的巡檢每一個扇區的狀態，保證扇區的健康。第3、一旦檢測出部分扇區發生異常，會對中止針對該扇區的寫入和讀取，而後利用冗餘數據對原有的扇區進行修復。在這個修復過程當中用戶仍然能夠讀取冗餘數據，服務持續可用。

數據持久和服務可用是雲服務廠商的生命線，只有完備的預案才能得到用戶信賴。騰訊雲對象存儲服務向客戶承諾99.999999999%的數據可靠性和99.95%的服務可用性。基於這五個維度的數據容災解決方案，騰訊雲數據存儲已經向GIF快手，芒果TV，CNTV等多家廠商提供可靠穩定的服務。

此外騰訊雲即將推出離線存儲服務，讓用戶以領先行業的極低成本享受到災備數據的保護。

更多產品詳情，請登錄騰訊雲官網www.qcloud.com/product/cos

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。