在剛剛過去的雙十一,又是一個全民狂歡的盛宴,天貓雙十一的成交量高達2684億。無數小夥伴在淘寶、天貓裏買買買,今年你又剁手了多少?言歸正傳,在你瘋狂秒殺的時候,有沒有發現,今年的購物體驗一如既往的好,訪問速度快,購物體驗那個流暢。我在這裏自豪的向你們宣佈,咱們阿里雲解析DNS又一次完成了今年雙十一的安保任務!大促的穩定,離不開DNS團隊的默默奉獻。
今天咱們來講說DNS服務穩定保障的重要環節--解析生效速度。對於DNS服務提供商來講,解析生效速度是一個關鍵議題,也是衡量系統能力的一個重要指標。當前主流DNS廠商的權威解析服務器大都採用了全球多地域多機房分佈式集羣部署的方式,以達到更低的解析時延,這同時也對解析管控系統的性能和跨地域跨機房的數據同步能力提出了更大挑戰。
對於用戶來講,大量線上服務和異地多活系統的構建是經過DNS來支撐的,更快的解析生效速度意味着更強的系統掌控能力和故障恢復能力,是系統穩定性和容災能力評估的重要一環。讓我從多個維度帶您瞭解快速生效這個熱點話題。html
圖: DNS解析原理緩存
總的來講:客戶端發起遞歸DNS請求,遞歸DNS服務器(大多數狀況下爲運營商DNS或者公共DNS)若是在TTL時間內有緩存則直接返回解析結果(1→8),不然會經過迭代查詢請求多級的DNS權威服務器,並最終將查詢結果返回給客戶端(1→2→...→7→8),同時緩存本次查詢結果。安全
從DNS解析原理中咱們能夠看到,遞歸服務器在TTL時間內會緩存權威域名服務器的解析結果。所以解析生效包含2個環節:首先域名的權威DNS服務器必須生效,而後還須要等各地遞歸DNS生效。各地遞歸DNS生效時間能夠TTL控制,阿里云云解析做爲權威服務器,付費版TTL能夠最小設置爲1秒。接下來重點介紹雲解析怎麼保證權威秒級生效。服務器
雲解析依託阿里雲內部資源,構建了穩定可靠的業務管控系統,爲客戶提供可視化的域名解析管理平臺和OpenApi接口。爲了不單用戶瞬時超高頻調用等異常狀況對其餘用戶形成影響,管控系統採起了租戶隔離的策略:各個用戶域名的解析調用互不影響,系統總體保證隔離性、公平性、可靠性、可控性。同時針對不一樣業務場景,採起了對應的隔離策略,以保證整體穩定。
對於分佈式系統架構,CAP 理論是系統設計中的一個重要理論。也就是在一個分佈式系統中,一致性(Consistency)、可用性(Availability)、分區容錯(Partition tolerance),三者不可得兼。BASE理論是對CAP原則中一致性和可用性權衡的結果,BASE是指基本可用(Basically Available)、軟狀態( Soft State)、最終一致性( Eventual Consistency)。其最核心思想是:即便沒法作到強一致性,但每一個應用均可以根據自身業務特色,採用適當的方式來使系統達到最終一致性。阿里云云解析在系統設計上採用此理念:即便某個域名有業務調用洪峯,也能保證該域名最終解析生效。且因爲存在租戶隔離策略,其餘用戶不會受到影響。網絡
圖: CAP理論架構
對帳是檢驗上下游系統間數據最終一致性的一種保障手段。雲解析創建了各個環節的對帳體系,若是有不一致的狀況發生,會自動觸發報警、自動處理異常,能有效保證解析實時生效以及異常處理自動化。
隨着用戶的持續增長,系統穩定性和性能挑戰不容小覷。另外,因爲當前分佈式系統、微服務化的流行和大規模部署,一次請求每每須要涉及到多個服務。所以須要一個能夠幫助理解系統行爲、用於分析性能問題的工具,它可以將跨應用的全部調用鏈性能信息集中展示,以便發生故障的時候,能夠快速定位和解決問題,於此同時,它還能夠對每一個具體調用階段作耗時分析,進而作針對性優化。阿里云云解析創建了全鏈路監控體系,使系統性能數據化,規範化,針對於監控結果反饋,持續壓榨系統極限性能。
此外,管控系統還有不少未討論的點,好比系統全棧監控、限流、熔斷、降級、異地多活高可用、彈性擴容等,在這裏再也不贅述。dom
DNS做爲網絡基礎設施,常常會受到DDoS攻擊,這會對解析生效時間產生重大影響。DDoS (Distributed Denial of service)攻擊經過僵屍網絡利用各類服務請求耗盡被攻擊網絡的系統資源,形成被攻擊網絡沒法處理合法用戶的請求。 一般DDoS防護技術有清洗和黑洞兩種方式,雲解析綜合利用兩種防護方式,創建了堅固的安全防禦壁壘。付費版提供了2種安全防禦等級,保障用戶在遭受攻擊的時候,也有絲滑般流暢體驗。分佈式
雲解析付費版提供了100%的SLA,創建了實時解析生效監控系統。另外,還經過設置服務基線,定時運行端到端測試用例的方式來監測生效時長,保證秒級生效。微服務
常見的測試域名解析生效的方法有四種:阿里云云解析提供的網頁版域名檢測工具、阿里巴巴DNS本地檢測工具、測試命令dig或nslookup、撥測工具。具體可見咱們的官方幫助文檔。工具
圖: Whois結果示例
圖: 域名檢測到被劫持示例
更多內容,可參考官方幫助文檔。
解析不生效的解決方法有不少,但都是否是萬能的,仍是須要具體問題具體分析。排除域名自己問題之外,常見還有如下解決方案:
本文爲雲棲社區原創內容,未經容許不得轉載。