如何構建應用的異地多活?git
隨着業務的快速發展,對於不少公司來講,構建於單地域的技術體系架構,會面臨諸以下面的多種問題:基礎設施的有限性限制了業務的可擴展性;機房、城市級別的故障災害,影響服務的可持續性。github
爲解決遇到的這些問題,公司能夠選擇構建異地多活架構,在同城/異地構建多個單元(業務中心)。各個業務單元能夠分佈在不一樣的地域,從而有效解決了單地域部署帶來的基礎設施的擴展限制、服務可持續性。數據庫
異地多活是近幾年比較熱門的一個話題,那麼在實際業務中何時須要去作這件事?如何去作?作的時候須要考慮什麼?服務器
我的感受取決於如下幾個方面:微信
目前在網上搜索到的異地多活方案來看,基本都是阿里、餓了麼、京東、微博這些互聯網大廠的實踐,這些大廠的方案有一個共同點就是:大量的自研組件,來作相關的數據同步,業務切分等等,那麼,對於不少傳統企業或者相對小一些的企業,應該如何來作這件事?網絡
以上兩點是咱們此次要作用戶中心異地容災的出發點,以便在面對機房級別故障時,保證服務可用性。架構
用戶中心從總體來看,對外主要提供:註冊、登錄、查詢用戶信息等服務。這些服務又有如下幾個特色:併發
涉及的公共組件主要有:運維
用戶中心是經過外包的形式進行開發的,目前已上線並交付給另外一個外包商運維,因此在考慮容災一期方案的時候,須要考慮儘可能不動代碼。分佈式
當北京機房出現故障的時候,能夠必定時間內把流量切到青島機房這邊,保證用戶中心核心服務的基本可用。
用戶中心經過異地多活,實現高可用(須要集團智能DNS支持)。
當北京機房發生故障的時候,能夠把流量快速切換到青島這邊,以保障用戶中心核心服務可用。
具體方案以下:
具體架構以下:
能夠達到的效果:
存在的缺點:
二期的目的就是修正一期架構的缺點,經過異地多活,實現高可用。
二期青島機房會替換爲阿里雲機房。
具體方案以下:
具體架構以下:
能夠達到的效果:
此處只是以阿里云云解析示例,只要能提供相似的服務都可。
HTTP/HTTPS實時探測域名解析記錄,支持自定義端口,實時發現宕機當即告警; 全網分佈式監控,在中國各個地區模擬用戶端真實請求,監控結果然實可靠; 支持宕機暫停、容災切換,最大限度的解決服務中斷對您的業務帶來的損失; 容災切換支持A記錄、CNAME域名,知足各類場景的容災切換需求;
監控結果中,HTTP/HTTPS的返回碼大於500的服務器錯誤狀況,纔會報警通知。 舉例說明:若是設置了四個探測點 北京聯通、深圳阿里巴巴、上海電信、重慶聯通。 場景一:四個探測點中50%的監控點沒法收到您服務器的響應,或50%的監控點收到返回碼大於等於500時,纔會判斷您的網站爲宕機狀況。 場景二:四個探測點中有50%以上的探測點探測您的網站返回碼是小於500的狀況,則不會判斷您的網站爲宕機。
雲解析「流量管理」能夠在您設置的每條解析線路下,根據權重比例輪詢返回解析結果。當線路下的IP宕機時能夠經過監控自動發現,並將宕機IP從當前線路下摘除,直到監控IP正常時會恢復解析。同時,當一條解析線路下的全部IP都宕機時,能夠切換至其餘正常線路。最大程度保證您的網站服務高可用,減少損失。
好比北京機房出現異常,這時轉發到阿里雲機房的流量是能夠正常訪問,只有轉發到北京機房的流量是異常的。
這時若是使用網站監控或者相似服務,進行監控,並設置撥測間隔爲1分鐘,TTL生效時間爲1秒,那麼最多有60+1秒部分服務異常時間,以後DNS會自動把北京機房的ip自動踢掉,流量所有切到阿里雲。
一期、二期方案的實現均強依賴於集團的DNS服務
用戶中心經過ip暴露的服務,一但出現機房級別的故障,一期、二期方案均沒法保證該部分服務可用。
其實除了DNS這種方案,還有一種方案就是用相似F5這種設備,做跨機房負載,但必須是gslb,並且兩端必須是相同的設備。
對於,非一線互聯網大廠的公司而言,是實現異地容災的時候,藉助公有云是頗有必要的,好比:
我的微信公衆號:
我的github:
我的博客: