問題分析: 在這件事發生前聯通的IP曾斷了10-20分鐘,當時業務有部分異常,本身就先登陸DNS將聯通的解析給暫停了,以後業務正常,在下午2點左右再度異常。 期間曾詢問機房人員網絡異常的事,給的答覆是網絡波動。這...這結果也只能認了。 DNS的設置裏面有TTL緩存生存時間,當到達設定的TTL時長後DNS會再次今後處得到最新的域名解析值,因爲咱們設置的是3600s,一小時。在停了聯通的線路解析後1小時後纔會從新生效,所以會有域名解析出現異常。 登陸咱們的DNS
咱們本身由於IP變更小,基本TTL都設置爲1小時,這樣會使得解析快點,但它的弊端就是當IP異常時它恢復時間會很長通常是1小時,最短可設1分鐘,但1分鐘又過短使得解析會很慢。 通過此次的事故,考慮了下設置爲600,即10分鐘比較合適。目前業務量並不大,網絡波動出現後一個IP有影響也只是分鐘級別,目前公司還能夠接受。 總結: 一、這主要是本身對IP的連通性沒有監控到位,使得IP異常本身未及時發現; 二、域名解析的IP最好不是直接對應的業務IP,而是在前端加一層負載均衡這樣後端一個IP異常,也不影響解析結果。不過加了一層負載均衡後會增長預算,並且引入負載均衡後它的單點故障也須要考慮,這又增長了費用。但若企業願意花錢買穩定,這仍是值得的。 此次主要緣由在於本身監控及報警未作到位,以至故障發生這麼久才知道。