分佈式系統緩存系列一 認識緩存

 

一、緩存的意義

   說到分佈式系統基本上就離不開緩存,在高併發,大流量的場景下緩存更是扮演着重要的角色。因此做爲一個分佈式系統的開發人員是必須熟練掌握緩存的使用與設計。下面是一張簡單的系統架構圖redis

 分佈式系統架構

       從圖中咱們知道了緩存在系統層面的所處位置,能夠在應用系統的內部也能夠在外部。那緩存的意義又是什麼呢?算法

       一、縮短系統的響應時間,提高用戶體驗。若是在系統的內部就已經緩存有了用戶請求所須要的結果,那麼就不在須要執行其後面操做如外部RPC,DB查詢,直接返回結果,給用戶流暢般的系統體驗。緩存

      二、扛住更大的流量,保護關鍵系統組件。舉個例子在高併發,大流量的場景下若是沒有緩存的保護,全部的請求的都直接穿透到咱們底層的DB。DB基本上都是扛不住的,DB一旦宕機基本上整個系統就over了,但不少緩存中間件好比redis,memcache卻能夠扛得住。架構

      三、提高系統穩定性,提升總體吞吐量。第三點其實由前面兩點總結出來的。     併發

 

 

二、緩存的分類

   根據緩存的存儲狀況能夠分爲:集中式緩存,本地緩存,分佈式緩存。less

 

    集中式緩存:全部的緩存都統一在一個地方管理。分佈式

    優勢:數據集中容易管理,一致性好,實時性好,只要修改一處地方能夠當即看到效果。高併發

    缺點:集中式緩存一般都存放在系統的外部,高併發請求下帶寬很容易成爲瓶頸。性能

    優化:減小沒必要要的數據,只存儲真正須要的數據。對放進緩存的數據進行壓縮,取出來以後再進行解壓。目的都是爲了減小數據傳輸對帶完的佔用。優化

 

    本地緩存:又叫localCache,每一個應用的本地都留着一份完整的緩存副本。

    優勢:性能好,相對於集中式緩存不須要訪問外部而且沒有帶寬的壓力。

    缺點:數據分散,不容易管理。數據一致性差,多個副本之間數據同步有延時。

    優化:必須給本地緩存加上一個過時失效時間,而且創建一套相對實時數據更新機制,保證副本的數據可以有效及時更新。

 

    分佈式緩存:以集羣的方式搭建緩存,好比redis集羣。

    優勢:高性能,支持動態擴展,支持高可用

    分佈式緩存集羣都是以分片的形式數據分散到多臺機器上面去存儲,分片的形式有客戶端分片(memcahed),服務端分片(redis),分片用的hash算法一般採用一致性hash。這一塊涉及的內容比較多,有時間的話後面打算專門獨立討論。    

 

三、緩存的特徵

   緩存也是一個數據模型對象,那麼必然有它的一些特徵:

   命中率

   命中率=返回正確結果數/請求緩存次數,命中率問題是緩存中的一個很是重要的問題,它是衡量緩存有效性的重要指標。命中率越高,代表緩存的使用率越高。

   最大元素(或最大空間)

  緩存中能夠存放的最大元素的數量,一旦緩存中元素數量超過這個值(或者緩存數據所佔空間超過其最大支持空間),那麼將會觸發緩存啓動清空策略根據不一樣的場景合理的設置最大元素值每每能夠必定程度上提升緩存的命中率,從而更有效的時候緩存。

四、緩存的清空策略

如上描述,緩存的存儲空間有限制,當緩存空間被用滿時,如何保證在穩定服務的同時有效提高命中率?這就由緩存清空策略來處理,設計適合自身數據特徵的清空策略能有效提高命中率。常見的通常策略有:

  • FIFO(first in first out)

    先進先出策略,最早進入緩存的數據在緩存空間不夠的狀況下(超出最大元素限制)會被優先被清除掉,以騰出新的空間接受新的數據。策略算法主要比較緩存元素的建立時間。在數據實效性要求場景下可選擇該類策略,優先保障最新數據可用。

  • LFU(less frequently used)

    最少使用策略,不管是否過時,根據元素的被使用次數判斷,清除使用次數較少的元素釋放空間。策略算法主要比較元素的hitCount(命中次數)。在保證高頻數據有效性場景下,可選擇這類策略。

  • LRU(least recently used)

    最近最少使用策略,不管是否過時,根據元素最後一次被使用的時間戳,清除最遠使用時間戳的元素釋放空間。策略算法主要比較元素最近一次被get使用時間。在熱點數據場景下較適用,優先保證熱點數據的有效性。

除此以外,還有一些簡單策略好比:

  • 根據過時時間判斷,清理過時時間最長的元素;
  • 根據過時時間判斷,清理最近要過時的元素;
  • 隨機清理;
  • 根據關鍵字(或元素內容)長短清理等。
相關文章
相關標籤/搜索