MySql+Memcached架構的問題

Memcached採用客戶端-服務器的架構,客戶端和服務器端的通信使用自定義的協議標準,只要知足協議格式要求,客戶端Library能夠用任何語言實現。html

Memcached服務器使用基於Slab的內存管理方式,有利於減小內存碎片和頻繁分配銷燬內存所帶來的開銷。各個Slab按需動態分配一個page的內存(和4Kpage的概念不一樣,這裏默認page1M),page內部按照不一樣slab class的尺寸再劃分爲內存chunk供服務器存儲KV鍵值對使用(slab機制至關於內存池機制, 實現從操做系統分配一大塊內存, 而後 memcached 本身管理這塊內存, 負責分配與回收。)ios

關於memcached的內存分配機制:Memcached 內存分配機制介紹redis

      實際MySQL是適合進行海量數據存儲的,經過Memcached將熱點數據加載到cache,加速訪問,不少公司都曾經使用過這樣的架構,但隨着業務數據量的不斷增長,和訪問量的持續增加,咱們遇到了不少問題:算法

  1.MySQL須要不斷進行拆庫拆表,Memcached也需不斷跟着擴容,擴容和維護工做佔據大量開發時間。sql

  2.Memcached與MySQL數據庫數據一致性問題。mongodb

  3.Memcached數據命中率低或down機,大量訪問直接穿透到DB,MySQL沒法支撐。數據庫

  4.跨機房cache同步問題。json

       關於memcached問題:Memcache存儲大數據的問題後端

  衆多NoSQL百花齊放,如何選擇api

  最近幾年,業界不斷涌現出不少各類各樣的NoSQL產品,那麼如何才能正確地使用好這些產品,最大化地發揮其長處,是咱們須要深刻研究和思考的問題,實際歸根結底最重要的是瞭解這些產品的定位,而且瞭解到每款產品的tradeoffs,在實際應用中作到揚長避短,整體上這些NoSQL主要用於解決如下幾種問題

  1.少許數據存儲,高速讀寫訪問。此類產品經過數據所有in-momery 的方式來保證高速訪問,同時提供數據落地的功能,實際這正是Redis最主要的適用場景。

  2.海量數據存儲,分佈式系統支持,數據一致性保證,方便的集羣節點添加/刪除。

  3.這方面最具表明性的是dynamo和bigtable 2篇論文所闡述的思路。前者是一個徹底無中心的設計,節點之間經過gossip方式傳遞集羣信息,數據保證最終一致性,後者是一箇中心化的方案設計,經過相似一個分佈式鎖服務來保證強一致性,數據寫入先寫內存和redo log,而後按期compat歸併到磁盤上,將隨機寫優化爲順序寫,提升寫入性能。

  4.Schema free,auto-sharding等。好比目前常見的一些文檔數據庫都是支持schema-free的,直接存儲json格式數據,而且支持auto-sharding等功能,好比mongodb。

  面對這些不一樣類型的NoSQL產品,咱們須要根據咱們的業務場景選擇最合適的產品。

       Redis最適合全部數據in-momory的場景,雖然Redis也提供持久化功能,但實際更多的是一個disk-backed的功能,跟傳統意義上的持久化有比較大的差異,那麼可能你們就會有疑問,彷佛Redis更像一個增強版的Memcached,那麼什麼時候使用Memcached,什麼時候使用Redis呢?

 

memcache和redis的比較:

 

  • 性能方面:沒有必要過多的關心性能,由於兩者的性能都已經足夠高了。因爲Redis只使用單核,而Memcached能夠使用多核,因此在比較上,平均每個核上Redis在存儲小數據時比Memcached性能更高。而在100k以上的數據中,Memcached性能要高於Redis,雖然Redis最近也在存儲大數據的性能上進行優化,可是比起Memcached,仍是稍有遜色。說了這麼多,結論是,不管你使用哪個,每秒處理請求的次數都不會成爲瓶頸。(好比瓶頸可能會在網卡)
  • 內存使用效率:使用簡單的key-value存儲的話,Memcached的內存利用率更高,而若是Redis採用hash結構來作key-value存儲,因爲其組合式的壓縮,其內存利用率會高於Memcached。固然,這和你的應用場景和數據特性有關。
  • 數據持久化:若是你對數據持久化和數據同步有所要求,那麼推薦你選擇Redis,由於這兩個特性Memcached都不具有。即便你只是但願在升級或者重啓系統後緩存數據不會丟失,選擇Redis也是明智的。
  • 數據結構:固然,最後還得說到你的具體應用需求。Redis相比Memcached來講,擁有更多的數據結構和並支持更豐富的數據操做,一般在Memcached裏,你須要將數據拿到客戶端來進行相似的修改再set回去。這大大增長了網絡IO的次數和數據體積。在Redis中,這些複雜的操做一般和通常的GET/SET同樣高效。因此,若是你須要緩存可以支持更復雜的結構和操做,那麼Redis會是不錯的選擇。
  • 網絡IO模型方面:Memcached是多線程,分爲監聽線程、worker線程,引入鎖,帶來了性能損耗。Redis使用單線程的IO複用模型,將速度優點發揮到最大,也提供了較簡單的計算功能 

  • 內存管理方面:Memcached使用預分配的內存池的方式,帶來必定程度的空間浪費 而且在內存仍然有很大空間時,新的數據也可能會被剔除,而Redis使用現場申請內存的方式來存儲數據,不會剔除任何非臨時數據 Redis更適合做爲存儲而不是cache 

  • 數據的一致性方面:Memcached提供了cas命令來保證.而Redis提供了事務的功能,能夠保證一串 命令的原子性,中間不會被任何操做打斷 

 

 

    若是簡單地比較Redis與Memcached的區別,大多數都會獲得如下觀點:

     1 、Redis不只僅支持簡單的k/v類型的數據,同時還提供list,set,zset,hash等數據結構的存儲。

     2 、Redis支持數據的備份,即master-slave模式的數據備份。

     3 、Redis支持數據的持久化,能夠將內存中的數據保持在磁盤中,重啓的時候能夠再次加載進行使用。

     四、Redis能夠實現主從複製,實現故障恢復。

     五、Redis的Sharding技術: 很容易將數據分佈到多個Redis實例中

 

 

 

 

2.  Redis經常使用數據類型

Redis最爲經常使用的數據類型主要有如下:

  • String
  • Hash
  • List
  • Set
  • Sorted set
  • pub/sub
  • Transactions

在具體描述這幾種數據類型以前,咱們先經過一張圖瞭解下Redis內部內存管理中是如何描述這些不一樣數據類型的:

         首先Redis內部使用一個redisObject對象來表示全部的key和value,redisObject最主要的信息如上圖所示:

         type表明一個value對象具體是何種數據類型,

         encoding是不一樣數據類型在redis內部的存儲方式,

         好比:type=string表明value存儲的是一個普通字符串,那麼對應的encoding能夠是raw或者是int,若是是int則表明實際redis內部是按數值型類存儲和表示這個字符串的,固然前提是這個字符串自己能夠用數值表示,好比:"123" "456"這樣的字符串。

       這裏須要特殊說明一下vm字段,只有打開了Redis的虛擬內存功能,此字段纔會真正的分配內存,該功能默認是關閉狀態的,該功能會在後面具體描述。經過上圖咱們能夠發現Redis使用redisObject來表示全部的key/value數據是比較浪費內存的,固然這些內存管理成本的付出主要也是爲了給Redis不一樣數據類型提供一個統一的管理接口,實際做者也提供了多種方法幫助咱們儘可能節省內存使用,咱們隨後會具體討論。

 

 

 

3.  各類數據類型應用和實現方式

下面咱們先來逐一的分析下這7種數據類型的使用和內部實現方式:

  • String:
Strings 數據結構是簡單的key-value類型,value其實不只是String,也能夠是數字.

經常使用命令:  set,get,decr,incr,mget 等。

 

應用場景:String是最經常使用的一種數據類型,普通的key/ value 存儲均可以歸爲此類.便可以徹底實現目前 Memcached 的功能,而且效率更高。還能夠享受Redis的定時持久化,操做日誌及 Replication等功能。除了提供與 Memcached 同樣的get、set、incr、decr 等操做外,Redis還提供了下面一些操做:

 

 

    • 獲取字符串長度
    • 往字符串append內容
    • 設置和獲取字符串的某一段內容
    • 設置及獲取字符串的某一位(bit)
    • 批量設置一系列字符串的內容

 

 

實現方式:String在redis內部存儲默認就是一個字符串,被redisObject所引用,當遇到incr,decr等操做時會轉成數值型進行計算,此時redisObject的encoding字段爲int。

 

  • Hash

經常使用命令:hget,hset,hgetall 等。

應用場景:在Memcached中,咱們常常將一些結構化的信息打包成HashMap,在客戶端序列化後存儲爲一個字符串的值,好比用戶的暱稱、年齡、性別、積分等,這時候在須要修改其中某一項時,一般須要將全部值取出反序列化後,修改某一項的值,再序列化存儲回去。這樣不只增大了開銷,也不適用於一些可能併發操做的場合(好比兩個併發的操做都須要修改積分)。而Redis的Hash結構能夠使你像在數據庫中Update一個屬性同樣只修改某一項屬性值。

        咱們簡單舉個實例來描述下Hash的應用場景,好比咱們要存儲一個用戶信息對象數據,包含如下信息:

用戶ID爲查找的key,存儲的value用戶對象包含姓名,年齡,生日等信息,若是用普通的key/value結構來存儲,主要有如下2種存儲方式:

 

第一種方式將用戶ID做爲查找key,把其餘信息封裝成一個對象以序列化的方式存儲,這種方式的缺點是,增長了序列化/反序列化的開銷,而且在須要修改其中一項信息時,須要把整個對象取回,而且修改操做須要對併發進行保護,引入CAS等複雜問題。

第二種方法是這個用戶信息對象有多少成員就存成多少個key-value對兒,用用戶ID+對應屬性的名稱做爲惟一標識來取得對應屬性的值,雖然省去了序列化開銷和併發問題,可是用戶ID爲重複存儲,若是存在大量這樣的數據,內存浪費仍是很是可觀的。

那麼Redis提供的Hash很好的解決了這個問題,Redis的Hash實際是內部存儲的Value爲一個HashMap,並提供了直接存取這個Map成員的接口,以下圖:

也就是說,Key仍然是用戶ID, value是一個Map,這個Map的key是成員的屬性名,value是屬性值,這樣對數據的修改和存取均可以直接經過其內部Map的Key(Redis裏稱內部Map的key爲field), 也就是經過 key(用戶ID) + field(屬性標籤) 就能夠操做對應屬性數據了,既不須要重複存儲數據,也不會帶來序列化和併發修改控制的問題。很好的解決了問題。

這裏同時須要注意,Redis提供了接口(hgetall)能夠直接取到所有的屬性數據,可是若是內部Map的成員不少,那麼涉及到遍歷整個內部Map的操做,因爲Redis單線程模型的緣故,這個遍歷操做可能會比較耗時,而另其它客戶端的請求徹底不響應,這點須要格外注意。

實現方式:

上面已經說到Redis Hash對應Value內部實際就是一個HashMap,實際這裏會有2種不一樣實現,這個Hash的成員比較少時Redis爲了節省內存會採用相似一維數組的方式來緊湊存儲,而不會採用真正的HashMap結構,對應的value redisObject的encoding爲zipmap,當成員數量增大時會自動轉成真正的HashMap,此時encoding爲ht。

  • List

經常使用命令:lpush,rpush,lpop,rpop,lrange等。

應用場景:

Redis list的應用場景很是多,也是Redis最重要的數據結構之一,好比twitter的關注列表,粉絲列表等均可以用Redis的list結構來實現。

Lists 就是鏈表,相信略有數據結構知識的人都應該能理解其結構。使用Lists結構,咱們能夠輕鬆地實現最新消息排行等功能。Lists的另外一個應用就是消息隊列,
能夠利用Lists的PUSH操做,將任務存在Lists中,而後工做線程再用POP操做將任務取出進行執行。Redis還提供了操做Lists中某一段的api,你能夠直接查詢,刪除Lists中某一段的元素。

實現方式:

Redis list的實現爲一個雙向鏈表,便可以支持反向查找和遍歷,更方便操做,不過帶來了部分額外的內存開銷,Redis內部的不少實現,包括髮送緩衝隊列等也都是用的這個數據結構。

  • Set

經常使用命令:

sadd,spop,smembers,sunion 等。

應用場景:

Redis set對外提供的功能與list相似是一個列表的功能,特殊之處在於set是能夠自動排重的,當你須要存儲一個列表數據,又不但願出現重複數據時,set是一個很好的選擇,而且set提供了判斷某個成員是否在一個set集合內的重要接口,這個也是list所不能提供的。

Sets 集合的概念就是一堆不重複值的組合。利用Redis提供的Sets數據結構,能夠存儲一些集合性的數據,好比在微博應用中,能夠將一個用戶全部的關注人存在一個集合中,將其全部粉絲存在一個集合。Redis還爲集合提供了求交集、並集、差集等操做,能夠很是方便的實現如共同關注、共同喜愛、二度好友等功能,對上面的全部集合操做,你還能夠使用不一樣的命令選擇將結果返回給客戶端仍是存集到一個新的集合中。

實現方式:

set 的內部實現是一個 value永遠爲null的HashMap,實際就是經過計算hash的方式來快速排重的,這也是set能提供判斷一個成員是否在集合內的緣由。

  • Sorted Set

經常使用命令:

zadd,zrange,zrem,zcard等

使用場景:

Redis sorted set的使用場景與set相似,區別是set不是自動有序的,而sorted set能夠經過用戶額外提供一個優先級(score)的參數來爲成員排序,而且是插入有序的,即自動排序。當你須要一個有序的而且不重複的集合列表,那麼能夠選擇sorted set數據結構,好比twitter 的public timeline能夠以發表時間做爲score來存儲,這樣獲取時就是自動按時間排好序的。

另外還能夠用Sorted Sets來作帶權重的隊列,好比普通消息的score爲1,重要消息的score爲2,而後工做線程能夠選擇按score的倒序來獲取工做任務。讓重要的任務優先執行。

實現方式:

Redis sorted set的內部使用HashMap和跳躍表(SkipList)來保證數據的存儲和有序,HashMap裏放的是成員到score的映射,而跳躍表裏存放的是全部的成員,排序依據是HashMap裏存的score,使用跳躍表的結構能夠得到比較高的查找效率,而且在實現上比較簡單。

 

  • Pub/Sub

 

Pub/Sub 從字面上理解就是發佈(Publish)與訂閱(Subscribe),在Redis中,你能夠設定對某一個key值進行消息發佈及消息訂閱,當一個key值上進行了消息發佈後,全部訂閱它的客戶端都會收到相應的消息。這一功能最明顯的用法就是用做實時消息系統,好比普通的即時聊天,羣聊等功能。

 

  • Transactions

 

誰說NoSQL都不支持事務,雖然Redis的Transactions提供的並非嚴格的ACID的事務(好比一串用EXEC提交執行的命令,在執行中服務器宕機,那麼會有一部分命令執行了,剩下的沒執行),可是這個Transactions仍是提供了基本的命令打包執行的功能(在服務器不出問題的狀況下,能夠保證一連串的命令是順序在一塊兒執行的,中間有會有其它客戶端命令插進來執行)。Redis還提供了一個Watch功能,你能夠對一個key進行Watch,而後再執行Transactions,在這過程當中,若是這個Watched的值進行了修改,那麼這個Transactions會發現並拒絕執行。

 

 

 

4.  Redis實際應用場景

 

        Redis在不少方面與其餘數據庫解決方案不一樣:它使用內存提供主存儲支持,而僅使用硬盤作持久性的存儲;它的數據模型很是獨特,用的是單線程。另外一個大區別在於,你能夠在開發環境中使用Redis的功能,但卻不須要轉到Redis。

轉向Redis固然也是可取的,許多開發者從一開始就把Redis做爲首選數據庫;但設想若是你的開發環境已經搭建好,應用已經在上面運行了,那麼更換數據庫框架顯然不那麼容易。另外在一些須要大容量數據集的應用,Redis也並不適合,由於它的數據集不會超過系統可用的內存。因此若是你有大數據應用,並且主要是讀取訪問模式,那麼Redis並非正確的選擇。

        然而我喜歡Redis的一點就是你能夠把它融入到你的系統中來,這就可以解決不少問題,好比那些你現有的數據庫處理起來感到緩慢的任務。這些你就能夠經過Redis來進行優化,或者爲應用建立些新的功能。在本文中,我就想探討一些怎樣將Redis加入到現有的環境中,並利用它的原語命令等功能來解決 傳統環境中碰到的一些常見問題。在這些例子中,Redis都不是做爲首選數據庫。

一、顯示最新的項目列表

下面這個語句經常使用來顯示最新項目,隨着數據多了,查詢毫無疑問會愈來愈慢。

 

  1. SELECT * FROM foo WHERE ... ORDER BY time DESC LIMIT 10   

 

        在Web應用中,「列出最新的回覆」之類的查詢很是廣泛,這一般會帶來可擴展性問題。這使人沮喪,由於項目原本就是按這個順序被建立的,但要輸出這個順序卻不得不進行排序操做。

        相似的問題就能夠用Redis來解決。好比說,咱們的一個Web應用想要列出用戶貼出的最新20條評論。在最新的評論邊上咱們有一個「顯示所有」的連接,點擊後就能夠得到更多的評論。

        咱們假設數據庫中的每條評論都有一個惟一的遞增的ID字段。

        咱們能夠使用分頁來製做主頁和評論頁,使用Redis的模板,每次新評論發表時,咱們會將它的ID添加到一個Redis列表:

 

  1. LPUSH latest.comments <ID>   

 

       咱們將列表裁剪爲指定長度,所以Redis只須要保存最新的5000條評論:

       LTRIM latest.comments 0 5000 

      每次咱們須要獲取最新評論的項目範圍時,咱們調用一個函數來完成(使用僞代碼):

 

  1. FUNCTION get_latest_comments(start, num_items):  
  2.     id_list = redis.lrange("latest.comments",start,start+num_items - 1)  
  3.     IF id_list.length < num_items  
  4.         id_list = SQL_DB("SELECT ... ORDER BY time LIMIT ...")  
  5.     END  
  6.     RETURN id_list  
  7. END  

 

 

      這裏咱們作的很簡單。在Redis中咱們的最新ID使用了常駐緩存,這是一直更新的。可是咱們作了限制不能超過5000個ID,所以咱們的獲取ID函數會一直詢問Redis。只有在start/count參數超出了這個範圍的時候,才須要去訪問數據庫。

        咱們的系統不會像傳統方式那樣「刷新」緩存,Redis實例中的信息永遠是一致的。SQL數據庫(或是硬盤上的其餘類型數據庫)只是在用戶須要獲取「很遠」的數據時纔會被觸發,而主頁或第一個評論頁是不會麻煩到硬盤上的數據庫了。

二、刪除與過濾

      咱們能夠使用LREM來刪除評論。若是刪除操做很是少,另外一個選擇是直接跳過評論條目的入口,報告說該評論已經不存在。

       有些時候你想要給不一樣的列表附加上不一樣的過濾器。若是過濾器的數量受到限制,你能夠簡單的爲每一個不一樣的過濾器使用不一樣的Redis列表。畢竟每一個列表只有5000條項目,但Redis卻可以使用很是少的內存來處理幾百萬條項目。

三、排行榜相關

      另外一個很廣泛的需求是各類數據庫的數據並不是存儲在內存中,所以在按得分排序以及實時更新這些幾乎每秒鐘都須要更新的功能上數據庫的性能不夠理想。

      典型的好比那些在線遊戲的排行榜,好比一個Facebook的遊戲,根據得分你一般想要:

         - 列出前100名高分選手

         - 列出某用戶當前的全球排名

      這些操做對於Redis來講小菜一碟,即便你有幾百萬個用戶,每分鐘都會有幾百萬個新的得分。

      模式是這樣的,每次得到新得分時,咱們用這樣的代碼:

      ZADD leaderboard  <score>  <username> 

     你可能用userID來取代username,這取決於你是怎麼設計的。

      獲得前100名高分用戶很簡單:ZREVRANGE leaderboard 0 99。

      用戶的全球排名也類似,只須要:ZRANK leaderboard <username>。

 

四、按照用戶投票和時間排序

      排行榜的一種常見變體模式就像Reddit或Hacker News用的那樣,新聞按照相似下面的公式根據得分來排序:

       score = points / time^alpha 

      所以用戶的投票會相應的把新聞挖出來,但時間會按照必定的指數將新聞埋下去。下面是咱們的模式,固然算法由你決定。

      模式是這樣的,開始時先觀察那些多是最新的項目,例如首頁上的1000條新聞都是候選者,所以咱們先忽視掉其餘的,這實現起來很簡單。

      每次新的新聞貼上來後,咱們將ID添加到列表中,使用LPUSH + LTRIM,確保只取出最新的1000條項目。

      有一項後臺任務獲取這個列表,而且持續的計算這1000條新聞中每條新聞的最終得分。計算結果由ZADD命令按照新的順序填充生成列表,老新聞則被清除。這裏的關鍵思路是排序工做是由後臺任務來完成的。

 

五、處理過時項目

      另外一種經常使用的項目排序是按照時間排序。咱們使用unix時間做爲得分便可。

      模式以下:

       - 每次有新項目添加到咱們的非Redis數據庫時,咱們把它加入到排序集合中。這時咱們用的是時間屬性,current_time和time_to_live。

       - 另外一項後臺任務使用ZRANGE…SCORES查詢排序集合,取出最新的10個項目。若是發現unix時間已通過期,則在數據庫中刪除條目。

 

六、計數

       Redis是一個很好的計數器,這要感謝INCRBY和其餘類似命令。

       我相信你曾許屢次想要給數據庫加上新的計數器,用來獲取統計或顯示新信息,可是最後卻因爲寫入敏感而不得不放棄它們。

       好了,如今使用Redis就不須要再擔憂了。有了原子遞增(atomic increment),你能夠放心的加上各類計數,用GETSET重置,或者是讓它們過時。

       例如這樣操做:

         INCR user:<id> EXPIRE 

         user:<id> 60 

       你能夠計算出最近用戶在頁面間停頓不超過60秒的頁面瀏覽量,當計數達到好比20時,就能夠顯示出某些條幅提示,或是其它你想顯示的東西。

七、特定時間內的特定項目

        另外一項對於其餘數據庫很難,但Redis作起來卻垂手可得的事就是統計在某段特色時間裏有多少特定用戶訪問了某個特定資源。好比我想要知道某些特定的註冊用戶或IP地址,他們到底有多少訪問了某篇文章。

      每次我得到一次新的頁面瀏覽時我只須要這樣作:

       SADD page:day1:<page_id> <user_id> 

      固然你可能想用unix時間替換day1,好比time()-(time()%3600*24)等等。

      想知道特定用戶的數量嗎?只須要使用SCARD page:day1:<page_id>。

       須要測試某個特定用戶是否訪問了這個頁面?SISMEMBER page:day1:<page_id>。

 

八、實時分析正在發生的狀況,用於數據統計與防止垃圾郵件等

        咱們只作了幾個例子,但若是你研究Redis的命令集,而且組合一下,就能得到大量的實時分析方法,有效並且很是省力。使用Redis原語命令,更容易實施垃圾郵件過濾系統或其餘實時跟蹤系統。

 

九、Pub/Sub

       Redis的Pub/Sub很是很是簡單,運行穩定而且快速。支持模式匹配,可以實時訂閱與取消頻道。

十、隊列

        你應該已經注意到像list push和list pop這樣的Redis命令可以很方便的執行隊列操做了,但能作的可不止這些:好比Redis還有list pop的變體命令,可以在列表爲空時阻塞隊列。

       現代的互聯網應用大量地使用了消息隊列(Messaging)。消息隊列不只被用於系統內部組件之間的通訊,同時也被用於系統跟其它服務之間的交互。消息隊列的使用能夠增長系統的可擴展性、靈活性和用戶體驗。非基於消息隊列的系統,其運行速度取決於系統中最慢的組件的速度(注:短板效應)。而基於消息隊列能夠將系統中各組件解除耦合,這樣系統就再也不受最慢組件的束縛,各組件能夠異步運行從而得以更快的速度完成各自的工做。

    此外,當服務器處在高併發操做的時候,好比頻繁地寫入日誌文件。能夠利用消息隊列實現異步處理。從而實現高性能的併發操做。

 

十一、緩存

        Redis的緩存部分值得寫一篇新文章,我這裏只是簡單的說一下。Redis可以替代memcached,讓你的緩存從只能存儲數據變得可以更新數據,所以你再也不須要每次都從新生成數據了。

此部份內容的原文地址:http://antirez.com/post/take-advantage-of-redis-adding-it-to-your-stack.html

 

5.  國內外三個不一樣領域巨頭分享的Redis實戰經驗及使用場景

 

   

     隨着應用對高性能需求的增長,NoSQL逐漸在各大名企的系統架構中生根發芽。這裏咱們將爲你們分享社交巨頭新浪微博、傳媒巨頭Viacom及圖片分享領域佼佼者Pinterest帶來的Redis實踐,首先咱們看新浪微博 @啓盼cobain的Redis實戰經驗分享:

1、新浪微博:史上最大的Redis集羣

Tape is Dead,Disk is Tape,Flash is Disk,RAM Locality is King. — Jim Gray

Redis不是比較成熟的memcache或者Mysql的替代品,是對於大型互聯網類應用在架構上很好的補充。如今有愈來愈多的應用也在紛紛基於Redis作架構的改造。首先簡單公佈一下Redis平臺實際狀況:

 

  • 2200+億 commands/day 5000億Read/day 500億Write/day
  • 18TB+ Memory
  • 500+ Servers in 6 IDC 2000+instances

 

應該是國內外比較大的Redis使用平臺,今天主要從應用角度談談Redis服務平臺。

Redis使用場景

1.Counting(計數)

計數的應用在另一篇文章裏較詳細的描述,計數場景的優化 http://www.xdata.me/?p=262這裏就很少加描述了。

能夠預見的是,有不少同窗認爲把計數所有存在內存中成本很是高,我在這裏用個圖表來表達下個人觀點:

不少狀況你們都會設想純使用內存的方案會頗有很高成本,但實際狀況每每會有一些不同:

 

  • COST,對於有必定吞吐需求的應用來講,確定會單獨申請DB、Cache資源,不少擔憂DB寫入性能的同窗還會主動將DB更新記入異步隊列,而這三塊的資源的利用率通常都不會過高。資源算下來,你驚異的發現:反而純內存的方案會更精簡!
  • KISS原則,這對於開發是很是友好的,我只須要創建一套鏈接池,不用擔憂數據一致性的維護,不用維護異步隊列。
  • Cache穿透風險,若是後端使用DB,確定不會提供很高的吞吐能力,cache宕機若是沒有妥善處理,那就悲劇了。
  • 大多數的起始存儲需求,容量較小。

 

2.Reverse cache(反向cache)

面對微博經常出現的熱點,如最近出現了較爲火爆的短鏈,短期有數以萬計的人點擊、跳轉,而這裏會經常涌現一些需求,好比咱們向快速在跳轉時斷定用戶等級,是否有一些帳號綁定,性別愛好什麼的,已給其展現不一樣的內容或者信息。

普通採用memcache+Mysql的解決方案,當調用id合法的狀況下,可支撐較大的吞吐。但當調用id不可控,有較多垃圾用戶調用時,因爲memcache未有命中,會大量的穿透至Mysql服務器,瞬間形成鏈接數瘋長,總體吞吐量下降,響應時間變慢。

這裏咱們能夠用redis記錄全量的用戶斷定信息,如string key:uid int:type,作一次反向的cache,當用戶在redis快速獲取本身等級等信息後,再去Mc+Mysql層去獲取全量信息。如圖:

固然這也不是最優化的場景,如用Redis作bloomfilter,可能更加省用內存。

3.Top 10 list

產品運營總會讓你展現最近、最熱、點擊率最高、活躍度最高等等條件的top list。不少更新較頻繁的列表若是使用MC+MySQL維護的話緩存失效的可能性會比較大,鑑於佔用內存較小的狀況,使用Redis作存儲也是至關不錯的。

4.Last Index

用戶最近訪問記錄也是redis list的很好應用場景,lpush lpop自動過時老的登錄記錄,對於開發來講仍是很是友好的。

5.Relation List/Message Queue

這裏把兩個功能放在最後,由於這兩個功能在現實問題當中遇到了一些困難,但在必定階段也確實解決了咱們不少的問題,故在這裏只作說明。

Message Queue就是經過list的lpop及lpush接口進行隊列的寫入和消費,因爲自己性能較好也能解決大部分問題。

6.Fast transaction with Lua

Redis 的Lua的功能擴展實際給Redis帶來了更多的應用場景,你能夠編寫若干command組合做爲一個小型的非阻塞事務或者更新邏輯,如:在收到message推送時,同時1.給本身的增長一個未讀的對話 2.給本身的私信增長一個未讀消息 3.最後給發送人回執一個完成推送消息,這一層邏輯徹底能夠在Redis Server端實現。

可是,須要注意的是Redis會將lua script的所有內容記錄在aof和傳送給slave,這也將是對磁盤,網卡一個不小的開銷。

7.Instead of Memcache

 

  1. 不少測試和應用均已證實,
  2. 在性能方面Redis並無落後memcache多少,而單線程的模型給Redis反而帶來了很強的擴展性。
  3. 在不少場景下,Redis對同一份數據的內存開銷是小於memcache的slab分配的。
  4. Redis提供的數據同步功能,實際上是對cache的一個強有力功能擴展。

 

Redis使用的重要點

1.rdb/aof Backup!

咱們線上的Redis 95%以上是承擔後端存儲功能的,咱們不只用做cache,而更爲一種k-v存儲,他徹底替代了後端的存儲服務(MySQL),故其數據是很是重要的,若是出現數據污染和丟失,誤操做等狀況,將是難以恢復的。因此備份是很是必要的!爲此,咱們有共享的hdfs資源做爲咱們的備份池,但願能隨時能夠還原業務所需數據。

2.Small item & Small instance!

因爲Redis單線程(嚴格意義上不是單線程,但認爲對request的處理是單線程的)的模型,大的數據結構list,sorted set,hash set的批量處理就意味着其餘請求的等待,故使用Redis的複雜數據結構必定要控制其單key-struct的大小。

另外,Redis單實例的內存容量也應該有嚴格的限制。單實例內存容量較大後,直接帶來的問題就是故障恢復或者Rebuild從庫的時候時間較長,而更糟糕的是,Redis rewrite aof和save rdb時,將會帶來很是大且長的系統壓力,並佔用額外內存,極可能致使系統內存不足等嚴重影響性能的線上故障。咱們線上96G/128G內存服務器不建議單實例容量大於20/30G。

3.Been Available!

業界資料和使用比較多的是Redis sentinel(哨兵)

http://www.huangz.me/en/latest/storage/redis_code_analysis/sentinel.html

http://qiita.com/wellflat/items/8935016fdee25d4866d9

2000行C實現了服務器狀態檢測,自動故障轉移等功能。

但因爲自身實際架構每每會複雜,或者考慮的角度比較多,爲此 @許琦eryk和我一同作了hypnos項目。

hypnos是神話中的睡神,字面意思也是但願咱們工程師無需在休息時間處理任何故障。:-)

其工做原理示意以下:

Talk is cheap, show me your code! 稍後將單獨寫篇博客細緻講下Hypnos的實現。

4.In Memory or not?

發現一種狀況,開發在溝通後端資源設計的時候,經常由於習慣使用和錯誤瞭解產品定位等緣由,而忽視了對真實使用用戶的評估。也許這是一份歷史數據,只有最近一天的數據纔有人進行訪問,而把歷史數據的容量和最近一天請求量都拋給內存類的存儲現實是很是不合理的。

因此當你在究竟使用什麼樣的數據結構存儲的時候,請務必先進行成本衡量,有多少數據是須要存儲在內存中的?有多少數據是對用戶真正有意義的。由於這其實對後端資源的設計是相當重要的,1G的數據容量和1T的數據容量對於設計思路是徹底不同的

Plans in future?

1.slave sync改造

所有改造線上master-slave數據同步機制,這一點咱們借鑑了MySQL Replication的思路,使用rdb+aof+pos做爲數據同步的依據,這裏簡要說明爲何官方提供的psync沒有很好的知足咱們的需求:

假設A有兩個從庫B及C,及 A `— B&C,這時咱們發現master A服務器有宕機隱患須要重啓或者A節點直接宕機,須要切換B爲新的主庫,若是A、B、C不共享rdb及aof信息,C在做爲B的從庫時,仍會清除自身數據,由於C節點只記錄了和A節點的同步情況。

故咱們須要有一種將A`–B&C 結構切換切換爲A`–B`–C結構的同步機制,psync雖然支持斷點續傳,但仍沒法支持master故障的平滑切換。

實際上咱們已經在咱們定製的Redis計數服務上使用瞭如上功能的同步,效果很是好,解決了運維負擔,但仍需向全部Redis服務推廣,若是可能咱們也會向官方Redis提出相關sync slave的改進。

2.更適合redis的name-system Or proxy

細心的同窗發現咱們除了使用DNS做爲命名系統,也在zookeeper中有一份記錄,爲何不讓用戶直接訪問一個系統,zk或者DNS選擇其一呢?

其實仍是很簡單,命名系統是個很是重要的組件,而dns是一套比較完善的命名系統,咱們爲此作了不少改進和試錯,zk的實現仍是相對複雜,咱們尚未較強的把控粒度。咱們也在思考用什麼作命名系統更符合咱們需求。

3.後端數據存儲

大內存的使用確定是一個重要的成本優化方向,flash盤及分佈式的存儲也在咱們將來計劃之中。(原文連接: Largest Redis Clusters Ever

2、Pinterest:Reids維護上百億的相關性

      Pinterest已經成爲硅谷最瘋故事之一,在2012年,他們基於PC的業務增長1047%,移動端採用增長1698%, 該年3月其獨立訪問數量更飆升至533億。在Pinterest,人們關注的事物以百億記——每一個用戶界面都會查詢某個board或者是用戶是否關注的行爲促成了異常複雜的工程問題。這也讓Redis得到了用武之地。通過數年的發展,Pinterest已經成爲媒體、社交等多個領域的佼佼者,其輝煌戰績以下:

 

  • 得到的推薦流量高於Google+、YouTube及LinkedIn三者的總和
  • 與Facebook及Twitter一塊兒成爲最流行的三大社交網絡
  • 參考Pinterest進行購買的用戶比其它網站更高( 更多詳情

 

如您所想,基於其獨立訪問數,Pinterest的高規模促成了一個很是高的IT基礎設施需求。

 

經過緩存來優化用戶體驗

近日,Pinterest工程經理Abhi Khune對其公司的用戶體驗需求及Redis的使用經驗 進行了分享。即便是滋生的應用程序打造者,在分析網站的細節以前也不會理解這些特性,所以先大體的理解一下使用場景:首先,爲每一個粉絲進行說起到的預檢查;其次,UI將準確的顯示用戶的粉絲及關注列表分頁。高效的執行這些操做,每次點擊都須要很是高的性能架構。

不能免俗,Pinterest的軟件工程師及架構師已經使用了MySQL及memcache,可是緩存解決方案仍然達到了他們的瓶頸;所以爲了擁有更好的用戶體驗,緩存必須被擴充。而在實際操做過程當中,工程團隊已然發現緩存只有當用戶sub-graph已經在緩存中時纔會起到做用。所以。任何使用這個系統的人都須要被緩存,這就致使了整個圖的緩存。同時,最多見的查詢「用戶A是否關注了用戶B」的答案常常是否認的,然而這卻被做爲了緩存丟失,從而促成一個數據庫查詢,所以他們須要一個新的方法來擴展緩存。最終,他們團隊決定使用Redis來存儲整個圖,用以服務衆多的列表。

使用Redis存儲大量的Pinterest列表

Pinterest使用了Redis做爲解決方案,並將性能推至了內存數據庫等級,爲用戶保存多種類型列表:

 

  • 關注者列表
  • 你所關注的board列表
  • 粉絲列表
  • 關注你board的用戶列表
  • 某個用戶中board中你沒有關注的列表
  • 每一個board的關注者及非關注者

 

Redis爲其7000萬用戶存儲了以上的全部列表,本質上講能夠說是儲存了全部粉絲圖,經過用戶ID分片。鑑於你能夠經過類型來查看以上列表的數據,分析概要信息被用看起來更像事務的系統儲存及訪問。Pinterest當下的用戶like被限制爲10萬,初略進行統計:若是每一個用戶關注25個board,將會在用戶及board間產生17.5億的關係。同時更加劇要的是,這些關係隨着系統的使用天天都會增長。

Pinterest的Reids架構及運營

經過Pinterest的一個創始人瞭解到,Pinterest開始使用Python及訂製的Django編寫應用程序,並一直持續到其擁有1800萬用戶級日410TB用戶數據的時候。雖然使用了多個存儲對數據進行儲存,工程師根據用戶id使用了8192個虛擬分片,每一個分片都運行在一個Redis DB之上,同時1個Redis實例將運行多個Redis DB。爲了對CPU核心的充分使用,同一臺主機上同時使用多線程和單線程Redis實例。

鑑於整個數據集運行在內存當中,Redis在Amazon EBS上對每秒傳輸進來的寫入都會進行持久化。擴展主要經過兩個方面進行:第一,保持50%的利用率,經過主從轉換,機器上運行的Redis實例一半會轉譯到一個新機器上;第二,擴展節點和分片。整個Redis集羣都會使用一個主從配置,從部分將被當作一個熱備份。一旦主節點失敗,從部分會馬上完成主的轉換,同時一個新的從部分將會被添加,ZooKeeper將完成整個過程。同時他們每一個小時都會在Amazon S3上運行BGsave作更持久的儲存——這項Reids操做會在後端進行,以後Pinterest會使用這些數據作MapReduce和分析做業。(更多內容見原文)

3、Viacom:Redis在系統中的用例盤點

Viacom是全球最大的傳媒集體之一,同時也遭遇了當下最大的數據難題之一:如何處理日益劇增的動態視頻內容。

着眼這一挑戰的上升趨勢,咱們會發現:2010年世界上全部數據體積達到ZB級,而單單2012這一年,互聯網產生的數據就增長了2.8個ZB,其中大部分的數據都是非結構化的,包括了視頻和圖片。

覆蓋MVN(之前稱爲MTV Networks、Paramount及BET),Viacom是個名副其實的傳媒巨頭,支持衆多人氣站點,其中包括The Daily Show、osh.0、South Park Studios、GameTrailers.com等。做爲媒體公司,這些網站上的文檔、圖片、視頻短片都在無時無刻的更新。長話短說,下面就進入Viacom高級架構師Michael Venezia 分享的Redis實踐:

Viacom的網站架構背景

對於Viacom,橫跨多個站點傳播內容讓必須專一於規模的需求,同時爲了將內容竟可能快的傳播到相應用戶,他們還必須聚焦內容之間的關係。然而即便The Daily Show、Nickelodeon、Spike或者是VH1 這些單獨的網站上,日平均PV均可以達到千萬,峯值時流量更會達到平均值的20-30倍。同時基於對實時的需求,動態的規模及速度已成爲架構的基礎之一。

除去動態規模以外,服務還必須基於用戶正在瀏覽的視頻或者是地理位置來推測用戶的喜愛。好比說,某個頁面可能會將一個獨立的視頻片斷與本地的促銷,視頻系列的額外部分,甚至是相關視頻聯繫起來。爲了能讓用戶能在網站上停留更長的時間,他們創建了一個能基於詳細元數據自動創建頁面的軟件引擎,這個引擎能夠根據用戶當下興趣推薦額外的內容。鑑於用於興趣的隨時改變,數據的類型很是普遍——相似graph-like,實際上作的是大量的join。

這樣作有利於減小相似視頻的大致積文件副本數,好比數據存儲中一個獨立的記錄是Southpark片斷「Cartman gets an Anal Probe」,這個片斷可能也會出如今德語的網站上。雖然視頻是同樣的,可是英語用戶搜索的可能就是另外一個不一樣的詞語。元數據的副本轉換成搜索結果,並指向相同的視頻。所以在美國用戶搜索真實標題的狀況下,德國瀏覽者可能會使用轉譯的標題——德國網站上的「Cartman und die Analsonde」。

這些元數據覆蓋了其它記錄或者是對象,同時還能夠根據使用環境來改變內容,經過不一樣的規則集來限制不一樣地理位置或者是設備請求的內容。

Viacom的實現方法

儘管許多機構經過使用ORM及傳統關係型數據庫來解決這個問題,Viacom卻使用了一個迥然不一樣的方法。

本質上,他們徹底承擔不了對數據庫的直接訪問。首先,他們處理的大部分都是流數據,他們偏向於使用Akamai從地理上來分配內容。其次,基於頁面的複雜性可能會取上萬個對象。取如此多的數據顯然會影響到性能,所以JSON在1個數據服務中投入了使用。固然,這些JSON對象的緩存將直接影響到網站性能。同時,當內容或者是內容之間的關係發生改變時,緩存還須要動態的進行更新。

Viacom依靠對象基元和超類解決這個問題,繼續以South Park爲例:一個私有的「episode」類包含了全部該片斷相關信息,一個「super object」將有助於發現實際的視頻對象。超類這個思想確實很是有益於建設低延遲頁面的自動建設,這些超類能夠幫助到基元對象到緩存的映射及保存。

Viacom爲何要使用Redis

每當Viacom上傳一個視頻片斷,系統將創建一個私有的對象,並於1個超類關聯。每一次修改,他們都須要重估私有對象的每一個改變,並更新全部複合對象。同時,系統還須要無效Akamail中的URL請求。系統現有架構的組合及更敏捷的管理方法需求將Viacom推向了Redis。

基於Viacom主要基於PHP,因此這個解決方案必須支持PHP。他們首先選擇了memcached作對象存儲,可是它並不能很好的支持hashmap;同時他們還須要一個更有效的進行無效步驟的重估,即更好的理解內容的依賴性。本質上說,他們須要時刻跟進無效步驟中的依賴性改變。所以他們選擇了Redis及Predis的組合來解決這個問題。

他們團隊使用Redis給southparkstudios.com和thedailyshow.com兩個網站建設依賴性圖,在取得了很大的成功後他們開始着眼Redis其它適合場景。

Redis的其它使用場景

顯而易見,若是有人使用Redis來建設依賴性圖,那麼使用它來作對象處理也是說得通的。一樣,這也成了架構團隊爲Redis選擇的第二使用場景。Redis的複製及持久化特性同時也征服了Viacom的運營團隊,所以在幾個開發週期後,Redis成爲他們網站的主要數據及依賴性儲存。

後兩個用例則是行爲追蹤及瀏覽計數的緩衝,改變後的架構是Redis每幾分鐘向MySQL中儲存一次,而瀏覽計數則經過Redis進行存儲及計數。同時Redis還被用來作人氣的計算,一個基於訪問數及訪問時間的得分系統——若是某個視頻最近被訪問的次數越多,它的人氣就越高。在如此多內容上每隔10-15分鐘作一次計算絕對不是相似MySQL這樣傳統關係型數據庫的強項,Viacom使用Redis的理由也很是簡單——在1個存儲瀏覽信息的Redis實例上運行Lua批處理做業,計算出全部的得分表。信息被拷貝到另外一個Redis實例上,用以支持相關的產品查詢。同時還在MySQL上作了另外一個備份,用以之後的分析,這種組合會將這個過程耗費的時間下降60倍。

Viacom還使用Redis存儲一步做業信息,這些信息被插入一個列表中,工做人員則使用BLPOP命令行在隊列中抓取頂端的任務。同時zsets被用於從衆多社交網絡(好比Twitter及Tumblr)上綜合內容,Viacom經過Brightcove視頻播放器來同步多個內容管理系統。

橫跨這些用例,幾乎全部的Redis命令都被使用——sets、lists、zlists、hashmaps、scripts、counters等。同時,Redis也成爲Viacom可擴展架構中不可或缺的一環。

相關文章
相關標籤/搜索