對公司網站DNS解析異常的排查與處理

  • 這周可謂是屋漏連夜雨,先是nfs掛載出現問題,緊接着住處的廁所堵了,而後又是今天的域名解析異常致使服務訪問返回404。
    咱們的域名是解析到兩個IP,分別是電信跟網通。
    異常情景:
    用戶打開頁面登陸後圖片上傳跟顯示出現異常,http返回404.
    排查問題:
    一、先讓用戶將異常的url發送過來,本身登陸查看。發現狀況以下:
    對公司網站DNS解析異常的排查與處理
    經過google的開發者工具再次刷新發現全部的異常的圖片都返回404,看了url是域名:8080/路徑,複製
    對公司網站DNS解析異常的排查與處理
    複製url在新窗口打開發現404,以後將域名替換爲ip,圖片顯示正常。換了第二個ip,圖片顯示正常
    二、在本地ping域名發現以下:
    對公司網站DNS解析異常的排查與處理
    域名解析不穩定
    由上面的分析,問題基本就是在域名解析上。

問題分析:
在這件事發生前聯通的IP曾斷了10-20分鐘,當時業務有部分異常,本身就先登陸DNS將聯通的解析給暫停了,以後業務正常,在下午2點左右再度異常。
期間曾詢問機房人員網絡異常的事,給的答覆是網絡波動。這...這結果也只能認了。

DNS的設置裏面有TTL緩存生存時間,當到達設定的TTL時長後DNS會再次今後處得到最新的域名解析值,因爲咱們設置的是3600s,一小時。在停了聯通的線路解析後1小時後纔會從新生效,所以會有域名解析出現異常。
登陸咱們的DNS

對公司網站DNS解析異常的排查與處理

咱們本身由於IP變更小,基本TTL都設置爲1小時,這樣會使得解析快點,但它的弊端就是當IP異常時它恢復時間會很長通常是1小時,最短可設1分鐘,但1分鐘又過短使得解析會很慢。
通過此次的事故,考慮了下設置爲600,即10分鐘比較合適。目前業務量並不大,網絡波動出現後一個IP有影響也只是分鐘級別,目前公司還能夠接受。

總結:
一、這主要是本身對IP的連通性沒有監控到位,使得IP異常本身未及時發現;
二、域名解析的IP最好不是直接對應的業務IP,而是在前端加一層負載均衡這樣後端一個IP異常,也不影響解析結果。不過加了一層負載均衡後會增長預算,並且引入負載均衡後它的單點故障也須要考慮,這又增長了費用。但若企業願意花錢買穩定,這仍是值得的。

此次主要緣由在於本身監控及報警未作到位,以至故障發生這麼久才知道。
相關文章
相關標籤/搜索