深刻理解redis和memcached區別

時間 2019-11-08

原文原文鏈接

說到redis就會聯想到memcached，反之亦然。瞭解過二者的同窗有那麼個大體的印象：redis

redis與memcached相比，比僅支持簡單的key-value數據類型，同時還提供list,set,zset,hash等數據結構的存儲；
redis支持數據的備份，即master-slave模式的數據備份；
redis支持數據的持久化，能夠將內存中的數據保持在磁盤中，重啓的時候能夠再次加載進行使用等等，

這彷佛看起來redis比memcached更加牛逼一些，那麼事實上是否是這樣的呢？存在即合理，咱們來根據幾個不一樣點來一一比較一下。算法

網絡IO模型

memcached是多線程，非阻塞IO複用的網絡模型，分爲監聽主線程和worker子線程，監聽線程監聽網絡鏈接，接受請求後，將鏈接描述字pipe傳遞給worker線程，進行讀寫IO，網絡層使用libevent封裝的事件庫，多線程模型能夠發揮多核做用，可是引入了cache coherency和鎖的問題，好比：memcached最經常使用的stats命令，實際memcached全部操做都要對這個全局變量加鎖，進行技術等工做，帶來了性能損耗。數據庫

redis使用單線程的IO複用模型，本身封裝了一個簡單的AeEvent事件處理框架，主要實現了epoll, kqueue和select，對於單存只有IO操做來講，單線程能夠將速度優點發揮到最大，可是redis也提供了一些簡單的計算功能，好比排序、聚合等，對於這些操做，單線程模型施加會嚴重影響總體吞吐量，CPU計算過程當中，整個IO調度都是被阻塞的。數組

數據支持類型

memcached使用key-value形式存儲和訪問數據，在內存中維護一張巨大的HashTable，使得對數據查詢的時間複雜度下降到O(1)，保證了對數據的高性能訪問。緩存

正如開篇所說：redis與memcached相比，比僅支持簡單的key-value數據類型，同時還提供list,set,zset,hash等數據結構的存儲；詳細能夠翻閱《Redis內存使用優化與存儲》服務器

內存管理機制

對於像Redis和Memcached這種基於內存的數據庫系統來講，內存管理的效率高低是影響系統性能的關鍵因素。傳統C語言中的malloc/free函數是最經常使用的分配和釋放內存的方法，可是這種方法存在着很大的缺陷：首先，對於開發人員來講不匹配的malloc和free容易形成內存泄露；其次頻繁調用會形成大量內存碎片沒法回收從新利用，下降內存利用率；最後做爲系統調用，其系統開銷遠遠大於通常函數調用。因此，爲了提升內存的管理效率，高效的內存管理方案都不會直接使用malloc/free調用。Redis和Memcached均使用了自身設計的內存管理機制，可是實現方法存在很大的差別，下面將會對二者的內存管理機制分別進行介紹。網絡

Memcached默認使用Slab Allocation機制管理內存，其主要思想是按照預先規定的大小，將分配的內存分割成特定長度的塊以存儲相應長度的key-value數據記錄，以徹底解決內存碎片問題。Slab Allocation機制只爲存儲外部數據而設計，也就是說全部的key-value數據都存儲在Slab Allocation系統裏，而Memcached的其它內存請求則經過普通的malloc/free來申請，由於這些請求的數量和頻率決定了它們不會對整個系統的性能形成影響Slab Allocation的原理至關簡單。如圖所示，它首先從操做系統申請一大塊內存，並將其分割成各類尺寸的塊Chunk，並把尺寸相同的塊分紅組Slab Class。其中，Chunk就是用來存儲key-value數據的最小單位。每一個Slab Class的大小，能夠在Memcached啓動的時候經過制定Growth Factor來控制。假定圖中Growth Factor的取值爲1.25，若是第一組Chunk的大小爲88個字節，第二組Chunk的大小就爲112個字節，依此類推。數據結構

當Memcached接收到客戶端發送過來的數據時首先會根據收到數據的大小選擇一個最合適的Slab Class，而後經過查詢Memcached保存着的該Slab Class內空閒Chunk的列表就能夠找到一個可用於存儲數據的Chunk。當一條數據庫過時或者丟棄時，該記錄所佔用的Chunk就能夠回收，從新添加到空閒列表中。從以上過程咱們能夠看出Memcached的內存管理制效率高，並且不會形成內存碎片，可是它最大的缺點就是會致使空間浪費。由於每一個Chunk都分配了特定長度的內存空間，因此變長數據沒法充分利用這些空間。如圖所示，將100個字節的數據緩存到128個字節的Chunk中，剩餘的28個字節就浪費掉了。多線程

Redis的內存管理主要經過源碼中zmalloc.h和zmalloc.c兩個文件來實現的。Redis爲了方便內存的管理，在分配一塊內存以後，會將這塊內存的大小存入內存塊的頭部。如圖所示，real_ptr是redis調用malloc後返回的指針。redis將內存塊的大小size存入頭部，size所佔據的內存大小是已知的，爲size_t類型的長度，而後返回ret_ptr。當須要釋放內存的時候，ret_ptr被傳給內存管理程序。經過ret_ptr，程序能夠很容易的算出real_ptr的值，而後將real_ptr傳給free釋放內存。架構

Redis經過定義一個數組來記錄全部的內存分配狀況，這個數組的長度爲ZMALLOC_MAX_ALLOC_STAT。數組的每個元素表明當前程序所分配的內存塊的個數，且內存塊的大小爲該元素的下標。在源碼中，這個數組爲zmalloc_allocations。zmalloc_allocations[16]表明已經分配的長度爲16bytes的內存塊的個數。zmalloc.c中有一個靜態變量used_memory用來記錄當前分配的內存總大小。因此，總的來看，Redis採用的是包裝的mallc/free，相較於Memcached的內存管理方法來講，要簡單不少。

在Redis中，並非全部的數據都一直存儲在內存中的。這是和Memcached相比一個最大的區別。當物理內存用完時，Redis能夠將一些好久沒用到的value交換到磁盤。Redis只會緩存全部的key的信息，若是Redis發現內存的使用量超過了某一個閥值，將觸發swap的操做，Redis根據「swappability = age*log(size_in_memory)」計算出哪些key對應的value須要swap到磁盤。而後再將這些key對應的value持久化到磁盤中，同時在內存中清除。這種特性使得Redis能夠保持超過其機器自己內存大小的數據。固然，機器自己的內存必需要可以保持全部的key，畢竟這些數據是不會進行swap操做的。同時因爲Redis將內存中的數據swap到磁盤中的時候，提供服務的主線程和進行swap操做的子線程會共享這部份內存，因此若是更新須要swap的數據，Redis將阻塞這個操做，直到子線程完成swap操做後才能夠進行修改。當從Redis中讀取數據的時候，若是讀取的key對應的value不在內存中，那麼Redis就須要從swap文件中加載相應數據，而後再返回給請求方。這裏就存在一個I/O線程池的問題。在默認的狀況下，Redis會出現阻塞，即完成全部的swap文件加載後纔會相應。這種策略在客戶端的數量較小，進行批量操做的時候比較合適。可是若是將Redis應用在一個大型的網站應用程序中，這顯然是沒法知足大併發的狀況的。因此Redis運行咱們設置I/O線程池的大小，對須要從swap文件中加載相應數據的讀取請求進行併發操做，減小阻塞的時間。

Memcached使用預分配的內存池的方式，使用slab和大小不一樣的chunk來管理內存，Item根據大小選擇合適的chunk存儲，內存池的方式能夠省去申請/釋放內存的開銷，而且能減少內存碎片產生，但這種方式也會帶來必定程度上的空間浪費，而且在內存仍然有很大空間時，新的數據也可能會被剔除，緣由能夠參考Timyang的文章：http://timyang.net/data/Memcached-lru-evictions/

Redis使用現場申請內存的方式來存儲數據，而且不多使用free-list等方式來優化內存分配，會在必定程度上存在內存碎片，Redis跟據存儲命令參數，會把帶過時時間的數據單獨存放在一塊兒，並把它們稱爲臨時數據，非臨時數據是永遠不會被剔除的，即使物理內存不夠，致使swap也不會剔除任何非臨時數據（但會嘗試剔除部分臨時數據），這點上Redis更適合做爲存儲而不是cache。

數據存儲及持久化

memcached不支持內存數據的持久化操做，全部的數據都以in-memory的形式存儲。

redis支持持久化操做。redis提供了兩種不一樣的持久化方法來說數據存儲到硬盤裏面，一種是快照（snapshotting)，它能夠將存在於某一時刻的全部數據都寫入硬盤裏面。另外一種方法叫只追加文件（append-only file， AOF),它會在執行寫命令時，將被執行的寫命令複製到硬盤裏面。

數據一致性問題

Memcached提供了cas命令，能夠保證多個併發訪問操做同一份數據的一致性問題。 Redis沒有提供cas 命令，並不能保證這點，不過Redis提供了事務的功能，能夠保證一串命令的原子性，中間不會被任何操做打斷。

集羣管理不一樣

Memcached是全內存的數據緩衝系統，Redis雖然支持數據的持久化，可是全內存畢竟纔是其高性能的本質。做爲基於內存的存儲系統來講，機器物理內存的大小就是系統可以容納的最大數據量。若是須要處理的數據量超過了單臺機器的物理內存大小，就須要構建分佈式集羣來擴展存儲能力。

Memcached自己並不支持分佈式，所以只能在客戶端經過像一致性哈希這樣的分佈式算法來實現Memcached的分佈式存儲。下圖給出了Memcached的分佈式存儲實現架構。當客戶端向Memcached集羣發送數據以前，首先會經過內置的分佈式算法計算出該條數據的目標節點，而後數據會直接發送到該節點上存儲。但客戶端查詢數據時，一樣要計算出查詢數據所在的節點，而後直接向該節點發送查詢請求以獲取數據。

相較於Memcached只能採用客戶端實現分佈式存儲，Redis更偏向於在服務器端構建分佈式存儲。最新版本的Redis已經支持了分佈式存儲功能。Redis Cluster是一個實現了分佈式且容許單點故障的Redis高級版本，它沒有中心節點，具備線性可伸縮的功能。Redis Cluster的分佈式存儲架構，節點與節點之間經過二進制協議進行通訊，節點與客戶端之間經過ascii協議進行通訊。在數據的放置策略上，Redis Cluster將整個key的數值域分紅4096個哈希槽，每一個節點上能夠存儲一個或多個哈希槽，也就是說當前Redis Cluster支持的最大節點數就是4096。Redis Cluster使用的分佈式算法也很簡單：crc16( key ) % HASH_SLOTS_NUMBER。

爲了保證單點故障下的數據可用性，Redis Cluster引入了Master節點和Slave節點。在Redis Cluster中，每一個Master節點都會有對應的兩個用於冗餘的Slave節點。這樣在整個集羣中，任意兩個節點的宕機都不會致使數據的不可用。當Master節點退出後，集羣會自動選擇一個Slave節點成爲新的Master節點。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。