緩存系統不得不考慮的另外一個問題是緩存穿透與失效時的雪崩效應。緩存穿透是指查詢一個必定不存在的數據,因爲緩存是不命中時被動寫的,而且出於容錯考慮,若是從存儲層查不到數據則不寫入緩存,這將致使這個不存在的數據每次請求都要到存儲層去查詢,失去了緩存的意義。 前端
有不少種方法能夠有效地解決緩存穿透問題,最多見的則是採用布隆過濾器,將全部可能存在的數據哈希到一個足夠大的bitmap中,一個必定不存在的數據會被這個bitmap攔截掉,從而避免了對底層存儲系統的查詢壓力。在數據魔方里,咱們採用了一個更爲簡單粗暴的方法,若是一個查詢返回的數據爲空(不論是數據不存在,仍是系統故障),咱們仍然把這個空結果進行緩存,但它的過時時間會很短,最長不超過五分鐘。 java
緩存失效時的雪崩效應對底層系統的衝擊很是可怕。遺憾的是,這個問題目前並無很完美的解決方案。大多數系統設計者考慮用加鎖或者隊列的方式保證緩存的單線程(進程)寫,從而避免失效時大量的併發請求落到底層存儲系統上。在數據魔方中,咱們設計的緩存過時機制理論上可以將各個客戶端的數據失效時間均勻地分佈在時間軸上,必定程度上可以避免緩存同時失效帶來的雪崩效應。 python
【1】海量數據領域涵蓋分佈式數據庫、分佈式存儲、數據實時計算、分佈式計算等多個技術方向。
對於海量數據處理,從數據庫層面來說無非就是兩點:一、壓力如何分攤,分攤的目的就是爲了把集中式變爲分佈式。二、採用多種的存儲方案,針對不一樣的業務數據,不一樣的數據特色,採用RDBMS或採用KV Store,選擇不一樣數據庫軟件,使用集中式或分佈式存儲,或者是其餘的一些存儲方案。 web
【2】將數據庫進行拆分,包括水平拆分和垂直拆分。
水平拆分主要解決兩個問題:一、底層存儲的無關性。二、經過線性的去增長機器,支持數據量以及訪問請求包括TPS(Transaction Per Second)、QPS(Query Per Second)的壓力增加。其方式如把一張大數據表按必定的方式拆分到不一樣的數據庫服務器上。海量數據從集中式走向分佈式,可能涉及跨多個IDC容災備份特性。 數據庫
【3】阿里巴巴的數據對不一樣地域數據的處理方法。由三個產品密切配合解決:是Erosa、Eromanga和Otter。Erosa作MySQL(或其餘數據庫庫)的Bin-Log時時解析,解析後放到Eromanga。Eromanga是增量數據的發佈訂閱的產品。Erosa產生了時時變動的數據發佈到Eromanga。而後各個業務端(搜索引擎、數據倉庫或關聯的業務方)經過訂閱的方式,把時時變動的數據時時的經過Push或Pull的方式拉到其業務端,進行一些業務處理。而Otter就是跨IDC的數據同步,把數據能及時反映到不一樣的AA站。數據同步可能會有衝突,暫時是以那個站點數據爲優先,好比說A機房的站點的數據是優先的,無論怎麼樣,它就覆蓋到B的。 緩存
【4】對於緩存。
一、注意切分力度,根據業務選擇切分力度。把緩存力度劃分的越細,緩存命中率相對會越高。二、確認緩存的有效生命週期。 ruby
【5】拆分策略
一、按字段拆分(最細力度)。如把表的Company字段拆掉,就按COMPANY_ID來拆。
二、按表來拆,把一張表拆到MySQL,那張表拆到MySQL集羣,更相似於垂直拆分。
三、按Schema拆分,Schema拆分跟應用相關的。如把某一模塊服務的數據放到某一機羣,另外一模塊服務的數據放到其餘MySQL機羣。但對外提供的總體服務是這些機羣的總體組合,用Cobar來負責協調處理。 服務器
幾種通訊協議比較:Socket (BIO/NIO/Netty/MINA) > RMI > HTTP Invoker >= Hessian > REST >> Burlap > EJB >> Web Service 網絡
總結:Hessian和REST架構我的認爲是比較優秀的高性能通訊協議,若是對性能要求特別苛刻能夠直接採用Socket方式,目前,阿里巴巴內部的遠程調用主要採用Hessian和Dubbo(基於Mina/Netty框架),經受了苛刻的高併發、高負載考驗。 數據結構