本文轉自:幾張圖看懂列式存儲數據庫
最近看到一篇很好資料,裏面三言兩語配上幾個圖就把列式存儲(Column-based Storage)講明白了,牛啊!最喜歡的就是這種淺顯易懂就把背景知識講得明明白白,而不是長篇大論的講概念。性能
列式存儲(Columnar or column-based)是相對於傳統關係型數據庫的行式存儲(Row-basedstorage)來講的。簡單來講二者的區別就是如何組織表(翻譯很差,直接抄原文了):.net
Ø Row-based storage stores atable in a sequence of rows.翻譯
Ø Column-based storage storesa table in a sequence of columns.orm
下面來看一個例子: cdn
行式存儲 | 列式存儲 | |
---|---|---|
優勢 | Ø 數據被保存在一塊兒 Ø INSERT/UPDATE容易 |
Ø 查詢時只有涉及到的列會被讀取 Ø 投影(projection)很高效 Ø 任何列都能做爲索引 |
缺點 | Ø 選擇(Selection)時即便只涉及某幾列,全部數據也都會被讀取 | Ø 選擇完成時,被選擇的列要從新組裝 Ø INSERT/UPDATE比較麻煩 |
注:關係型數據庫理論回顧 - 選擇(Selection)和投影(Projection) blog
剛纔其實跳過了資料裏提到的另外一種技術:經過字典表壓縮數據。爲了方面後面的講解,這部分也順帶提一下了。索引
下面中才是那張表原本的樣子。通過字典表進行數據壓縮後,表中的字符串才都變成數字了。正由於每一個字符串在字典表裏只出現一次了,因此達到了壓縮的目的(有點像規範化和非規範化Normalize和Denomalize) 圖片
下面就是最牛的圖了,經過一條查詢的執行過程說明列式存儲(以及數據壓縮)的優勢: 字符串
關鍵步驟以下:
去字典表裏找到字符串對應數字(只進行一次字符串比較)。
用數字去列表裏匹配,匹配上的位置設爲1。
把不一樣列的匹配結果進行位運算獲得符合全部條件的記錄下標。
使用這個下標組裝出最終的結果集。