《DNS穩定保障系列3--快如閃電,域名解析秒級生效》

在剛剛過去的雙十一,又是一個全民狂歡的盛宴,天貓雙十一的成交量高達2684億。無數小夥伴在淘寶、天貓裏買買買,今年你又剁手了多少?言歸正傳,在你瘋狂秒殺的時候,有沒有發現,今年的購物體驗一如既往的好,訪問速度快,購物體驗那個流暢。我在這裏自豪的向你們宣佈,咱們阿里雲解析DNS又一次完成了今年雙十一的安保任務!大促的穩定,離不開DNS團隊的默默奉獻。
今天咱們來講說DNS服務穩定保障的重要環節--解析生效速度。對於DNS服務提供商來講,解析生效速度是一個關鍵議題,也是衡量系統能力的一個重要指標。當前主流DNS廠商的權威解析服務器大都採用了全球多地域多機房分佈式集羣部署的方式,以達到更低的解析時延,這同時也對解析管控系統的性能和跨地域跨機房的數據同步能力提出了更大挑戰。
對於用戶來講,大量線上服務和異地多活系統的構建是經過DNS來支撐的,更快的解析生效速度意味着更強的系統掌控能力和故障恢復能力,是系統穩定性和容災能力評估的重要一環。讓我從多個維度帶您瞭解快速生效這個熱點話題。
html

DNS解析原理

 

1_DNS_

 

圖: DNS解析原理緩存


總的來講:客戶端發起遞歸DNS請求,遞歸DNS服務器(大多數狀況下爲運營商DNS或者公共DNS)若是在TTL時間內有緩存則直接返回解析結果(1→8),不然會經過迭代查詢請求多級的DNS權威服務器,並最終將查詢結果返回給客戶端(1→2→...→7→8),同時緩存本次查詢結果。安全

雲解析權威解析怎麼保證秒級生效

從DNS解析原理中咱們能夠看到,遞歸服務器在TTL時間內會緩存權威域名服務器的解析結果。所以解析生效包含2個環節:首先域名的權威DNS服務器必須生效,而後還須要等各地遞歸DNS生效。各地遞歸DNS生效時間能夠TTL控制,阿里云云解析做爲權威服務器,付費版TTL能夠最小設置爲1秒。接下來重點介紹雲解析怎麼保證權威秒級生效。服務器

軟件層面

  • 強大的業務管控系統

雲解析依託阿里雲內部資源,構建了穩定可靠的業務管控系統,爲客戶提供可視化的域名解析管理平臺和OpenApi接口。爲了不單用戶瞬時超高頻調用等異常狀況對其餘用戶形成影響,管控系統採起了租戶隔離的策略:各個用戶域名的解析調用互不影響,系統總體保證隔離性、公平性、可靠性、可控性。同時針對不一樣業務場景,採起了對應的隔離策略,以保證整體穩定。
對於分佈式系統架構,CAP 理論是系統設計中的一個重要理論。也就是在一個分佈式系統中,一致性(Consistency)、可用性(Availability)、分區容錯(Partition tolerance),三者不可得兼。BASE理論是對CAP原則中一致性和可用性權衡的結果,BASE是指基本可用(Basically Available)、軟狀態( Soft State)、最終一致性( Eventual Consistency)。其最核心思想是:即便沒法作到強一致性,但每一個應用均可以根據自身業務特色,採用適當的方式來使系統達到最終一致性。阿里云云解析在系統設計上採用此理念:即便某個域名有業務調用洪峯,也能保證該域名最終解析生效。且因爲存在租戶隔離策略,其餘用戶不會受到影響。
網絡

2_CAP_

 

圖: CAP理論架構


對帳是檢驗上下游系統間數據最終一致性的一種保障手段。雲解析創建了各個環節的對帳體系,若是有不一致的狀況發生,會自動觸發報警、自動處理異常,能有效保證解析實時生效以及異常處理自動化。
隨着用戶的持續增長,系統穩定性和性能挑戰不容小覷。另外,因爲當前分佈式系統、微服務化的流行和大規模部署,一次請求每每須要涉及到多個服務。所以須要一個能夠幫助理解系統行爲、用於分析性能問題的工具,它可以將跨應用的全部調用鏈性能信息集中展示,以便發生故障的時候,能夠快速定位和解決問題,於此同時,它還能夠對每一個具體調用階段作耗時分析,進而作針對性優化。阿里云云解析創建了全鏈路監控體系,使系統性能數據化,規範化,針對於監控結果反饋,持續壓榨系統極限性能。
此外,管控系統還有不少未討論的點,好比系統全棧監控、限流、熔斷、降級、異地多活高可用、彈性擴容等,在這裏再也不贅述。dom

  • 高性能權威DNS
    ADNS是阿里雲自研的高性能權威DNS解析軟件,能夠在普通服務器上,實現千萬級的QPS。雲解析管控系統和ADNS配合,能夠將客戶的解析配置,實時同步到在全球部署的權威解析服務器節點上。
  • 緩存聯動刷新
    因爲阿里DNS是全鏈路DNS廠商,能夠作到權威DNS和遞歸DNS之間使用私有協議通訊。當用戶使用阿里DNS做爲DNS託管方,同時使用阿里公共DNS做爲遞歸DNS時,能夠很方便的作到緩存聯動刷新,能夠獲取更低的解析生效時延。

硬件層面

  • 高性能服務器
    雲解析權威採用阿里定製高性能服務器,採用軟硬結合的方式解決業務性能極致、成本最優、高可靠等問題。
  • 專線網絡
    藉助集團全球加速能力來進行全球訪問提效,同時達到配置下發實時生效。

安全防禦

DNS做爲網絡基礎設施,常常會受到DDoS攻擊,這會對解析生效時間產生重大影響。DDoS (Distributed Denial of service)攻擊經過僵屍網絡利用各類服務請求耗盡被攻擊網絡的系統資源,形成被攻擊網絡沒法處理合法用戶的請求。 一般DDoS防護技術有清洗和黑洞兩種方式,雲解析綜合利用兩種防護方式,創建了堅固的安全防禦壁壘。付費版提供了2種安全防禦等級,保障用戶在遭受攻擊的時候,也有絲滑般流暢體驗。分佈式

  • DNS攻擊基本防護:針對付費版本綁定的全部域名,提供基礎DNS攻擊保護能力,基礎DNS攻擊防護上限不超過每秒1000萬次,適用於通常狀況下的DNS攻擊預防保障。
  • DNS攻擊全力防護:針對版本綁定的全部域名,提供全面的DNS攻擊保護能力,能承受每秒過億次的DNS攻擊,適用於頻繁受到DNS攻擊時進行全力保護。

SLA

雲解析付費版提供了100%的SLA,創建了實時解析生效監控系統。另外,還經過設置服務基線,定時運行端到端測試用例的方式來監測生效時長,保證秒級生效。微服務

解析生效測試方法

常見的測試域名解析生效的方法有四種:阿里云云解析提供的網頁版域名檢測工具、阿里巴巴DNS本地檢測工具、測試命令dig或nslookup、撥測工具。具體可見咱們的官方幫助文檔工具

解析不生效常見緣由

  • 域名狀態異常
    域名狀態對解析生效會產生直接影響。註冊商設置暫停解析(clientHold)、 註冊局設置暫停解析(serverHold)、域名到期等都會形成解析不生效。可使用whois工具排查域名狀態信息,好比下圖所示域名就是由於域名是註冊商設置暫停解析(clientHold)形成的解析不生效。

 

3_Whois_

 

圖: Whois結果示例

  • 域名DNS服務器不是用的阿里雲DNS
    阿里云云解析權威服務器的後綴爲alidns.com或者hichina.com。若是上述whois信息顯示域名使用的DNS服務器(Name server)不是阿里云云解析權威,則須要諮詢域名當前DNS服務商。
  • 域名遞歸解析過程被污染
    因爲經常使用的DNS查詢沒有認證機制、且是利用無鏈接的UDP協議,所以DNS查詢就很是容易被篡改。利用阿里雲域名檢測工具,能夠自助診斷是否被污染:

 

4_

 

圖: 域名檢測到被劫持示例


更多內容,可參考官方幫助文檔

解析不生效解決方法

解析不生效的解決方法有不少,但都是否是萬能的,仍是須要具體問題具體分析。排除域名自己問題之外,常見還有如下解決方案:

  • 檢查防火牆
    檢查防火牆iptables,查看是否有攔截53端口的相關規則。
  • 刷新本地DNS緩存
    Windows:ipconfig /flushdns 。 Linux:重啓nscd服務或者關閉nscd服務後再測試。
  • 更換本地DNS服務器
    若是本機能夠訪問公網,能夠添加阿里雲公共DNS(V4:223.5.5.五、223.6.6.6。V6:2400:3200::1 2400:3200:baba::1)

 

原文連接

本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索