在 Redis 中,熱 key 指的是那些在一段時間內訪問頻次比較高的鍵值,具體到業務上,商品的限時搶購、瞬時的新聞熱點或某個全局性的資源,都極有可能產生熱點 key。html
熱點 key 的出現可能會對系統的穩定性和可用性形成影響,好比對應節點的網卡帶寬被打滿,出現丟包重傳,請求波動耗時大幅上升,甚至影響到業務的正常使用,引起用戶的不滿。所以,在平常的工做中,咱們須要着重避免這種狀況的出現,好比在設計和編碼階段避免引入全局性熱 key,或者在設計時考慮熱 key 出現時的應對方案。node
熱點 key 即便咱們在設計和開發時已經極力避免,然而在真實的生產環境中仍是可能依舊存在的,致使其繼續出現的緣由有如下幾種:redis
既然不可能徹底避免,咱們就須要有一種方法可以在出問題的時候快速定位有沒有熱 key 以及熱 key 具體是啥,來幫助業務快速排障,定位問題的根源。若是要設計定位方案的話,咱們能夠從 Redis 請求路徑上的節點來着手,好比在客戶端、中間層和服務端,具體來講以下:算法
Redis 的 Monitor 命令不在考慮之列,緣由是開銷比較大,單個 monitor 的 client 會下降 50% 的系統吞吐,更多詳情見: https://redis.io/commands/monitor緩存
因爲在餓了麼內部,全部的 Redis 請求都是通過透明代理 Samaritan[2] 的,而且該代理是由咱們本身開發維護的,在代理層改造的成本徹底受控,所以咱們選擇了方案二,即在代理層進行收集上報。服務器
大的方向肯定以後,須要考慮具體的細節,好比:網絡
針對第 1 點,既然咱們只關心熱 key 而不是要統計全部 key 的 counter,那麼就能夠用 LFU 只保留訪問頻次最高的,第 2 點則須要結合代理具體的實現去考慮。架構
下圖是代理內部的實現方案, 略去了一些無關的細節:負載均衡
注:tcp
Hotkey Collector 內部結構以下所示,包含 LFU Counter、Syncer 和 Etrace Client 三部分:
Etrace 是一個內部的應用監控平臺,相似的開源產品是 CAT [3]
基本的工做流程是,LFU Counter 負責記錄 key 的訪問頻次,Syncer 會按期將統計數據經過 Etrace Client 發送給遠端的服務器。另外,爲了不向服務端發送過多無效的數據,內部會預先設置一個閾值,超過閾值的才發送到服務端。
按照預先的設計,咱們將會有一個實時計算的服務去拉取 Etrace 上的數據,進行聚合計算獲得當前的熱點 key。但不幸地是代理中間件改造上線後的很長一段時間內,這個實時計算服務的開發都未被提上日程,分析下來主要是 ROI 低和維護成本高,所以在業務上若是要查熱 key 就只能在 Etrace 上手動戳 event 碰運氣好比:
因爲使用起來很麻煩,用戶在第一次體驗以後基本就放棄了,不會再用第二次,甚至連咱們本身都不肯意使用… 在當時咱們急須要找到一種更好的方案去解決用戶體驗和系統複雜度的問題,讓該特性能真正地賦能於業務。
對前面方案進行優化的話,能夠從如下兩個方面入手:
針對第一點,當時第一個想法是能不能把聚合邏輯放在代理進程內,這樣的話就不用再依賴任何外部組件,能夠下降整個系統的複雜度和維護成本。但這裏會有個問題,以前設計外部聚合組件的初衷是爲了聚合不一樣機器的數據,如今採用單機數據會不會有問題,邏輯是否是站得住腳?
仔細思考下來,邏輯上是成立的,由於到達業務的流量是負載均衡過的,不一樣實例上的流量是比較均勻的,差不太多的,基於這個局部能夠表明總體的原則,那麼單實例上的熱 key 就能夠表明全局的一個狀況。
另外,就易用性和使用體驗上來講,若是聚合的數據在進程內,咱們能夠提供 HOTKEY 相似的自定義命令,讓用戶經過 redis-cli 直接獲取。
最終的方案以下,已略去無關細節:
實現上來講,每一個集羣會有一個全局的 Hotkey Collector,每一個 client 上有本身獨立的 Counter,Counter 依舊採用前面提到的 LFU[4] 算法,Collector 會定時地去收集每一個 Counter 的數據並進行聚合,聚合的時候不會使用真實的計數,而是使用機率計數[5],而且爲了適應訪問模式的變化 counter 的值會隨着時間衰減,總體上與 redis lfu[6]很是相似。
下面是一個生產環境的真實例子,展現了近一段時間內比較熱的 key:
注:
當前的方案雖然可以快速定位系統中的熱 key,但並無真正解決熱 key 自己帶來的問題,仍舊須要業務方自行改造或者將那些熱點 key 調度到單獨的節點上,成本是比較高的,甚至有的業務還會本身作 local cache。
本着更好地服務於客戶的原則,咱們後面將會考慮在代理內實現熱點 key 的緩存,不過在代理內實現緩存的話須要先解決內存佔用、數據一致性和性能的問題,這塊暫時尚未很是好的方案,仍舊在調研之中,好的消息是 Redis 6 計劃實現 server-assisted client side caching[8],若是有可能的話咱們會第一時間考慮對接。
最後,熱 key 實時收集的功能已經上線,而且也進行了開源,相關源代碼能夠在 Samaritan 中找到,有興趣的朋友能夠進行嘗試,有問題和想法也歡迎提 issue 或者直接與我交流。