對於系統 A,假設天天高峯期每秒 5000 個請求,原本緩存在高峯期能夠扛住每秒 4000 個請求,可是緩存機器意外發生了全盤宕機。緩存掛了,此時 1 秒 5000 個請求所有落數據庫,數據庫必然扛不住,它會報一下警,而後就掛了。此時,若是沒用什麼特別的方案來處理這個故障,DBA 很着急,重啓數據庫,可是數據庫立馬又被新的流量給打死了。java
這就是緩存雪崩。redis
大約在 3 年前,國內比較知名的一個互聯網公司,曾由於緩存事故,致使雪崩,後臺系統所有崩潰,事故從當天下午持續到晚上凌晨 3~4 點,java 項目框架案例www.1b23.com,公司損失了幾千萬。數據庫
緩存雪崩的事前事中過後的解決方案以下。緩存
事前:redis 高可用,主從+哨兵,redis cluster,避免全盤崩潰。框架
事中:本地 ehcache 緩存 + hystrix 限流&降級,避免 MySQL 被打死。ide
過後:redis 持久化,一旦重啓,自動從磁盤上加載數據,快速恢復緩存數據。spa
用戶發送一個請求,系統 A 收到請求後,先查本地 ehcache 緩存,若是沒查到再查 redis。若是 ehcache 和 redis 都沒有,再查數據庫,將數據庫中的結果,寫入 ehcache 和 redis 中。code
限流組件,能夠設置每秒的請求,有多少能經過組件,剩餘的未經過的請求,怎麼辦?走降級!能夠返回一些默認的值,或者友情提示,或者空白的值。get
好處:it
數據庫絕對不會死,限流組件確保了每秒只有多少個請求能經過。
只要數據庫不死,就是說,對用戶來講,2/5 的請求都是能夠被處理的。
只要有 2/5 的請求能夠被處理,就意味着你的系統沒死,對用戶來講,可能就是點擊幾回刷不出來頁面,可是多點幾回,就能夠刷出來一次。
對於系統A,假設一秒 5000 個請求,結果其中 4000 個請求是***發出的惡意***。
***發出的那 4000 個***,緩存中查不到,每次你去數據庫裏查,也查不到。
舉個栗子。數據庫 id 是從 1 開始的,結果***發過來的請求 id 所有都是負數。這樣的話,緩存中不會有,請求每次都「視緩存於無物」,直接查詢數據庫。這種惡意***場景的緩存穿透就會直接把數據庫給打死。
解決方式很簡單,每次系統 A 從數據庫中只要沒查到,就寫一個空值到緩存裏去,好比 set -999 UNKNOWN
。這樣的話,下次便能走緩存了。