閱讀目錄數據庫
1 爲何要按列存儲
2補充:數據壓縮
3查詢執行性能
add by zhj: 終於明白了什麼是列式存儲,什麼是行式存儲。這跟數據在存儲介質中的存儲結構有關,ide
列式存儲是指,一列中的數據在存儲介質中是連續存儲的;行式存儲是指一行中的數據在存儲介質性能
中是連續存儲的。簡單的說,你能夠把列式數據庫認爲是每一列都是一個表,這個表只有一列,如.net
果只在該列進行條件查詢,速度就很快。翻譯
那這兩種不一樣的存儲方式對數據的CRUD有什麼不一樣的影響呢?看了一些文章,code
通常說的是下面兩點orm
1。行數據庫適用於讀取出少行,多列的狀況;列數據庫相反,適用於讀取出少數列,多數行的狀況。blog
2。列數據庫能夠節省空間,若是某一行的某一列沒有數據,那在列存儲時,就能夠不存儲該列的值。排序
這比行數據庫節省空間索引
我我的感受列數據庫只適合對單個列進行條件查詢,不適合對幾個列的字段進行多條件組合查詢,因
爲每一列上的查詢都是獨立完成的,至關於每一列都是一個單獨的數據庫表,須要每一列的查詢結果進行
join鏈接,join的條件是row_key相等,但每列的查詢結果集可能很大。當咱們對一個列的數據進行切片,
存儲在不一樣的機器上時,通常是按主鍵進行排序,而後分片。額,有點亂。以HBase爲例來講吧,它每一
列的數、據其實都是按row-key排序的,這樣的好處是,必定範圍內row-key能夠放在一臺機器上,當咱們
用row-key進行查詢時,能夠很快就查到數據。HBase沒有二級索引,若是我想用另外一列的字段作爲查詢條
件,那會全表掃描了。這樣看來,貌似列數據庫只有上面第2點的優點了
原文:http://blog.csdn.net/dc_726/article/details/41143175
最近看到一篇很好資料,裏面三言兩語配上幾個圖就把列式存儲(Column-based Storage)講明白了,牛啊!最喜歡的就是這種淺顯易懂就把背景知識講得明明白白,而不是長篇大論的講概念。
回到頂部
1 爲何要按列存儲
列式存儲(Columnar or column-based)是相對於傳統關係型數據庫的行式存儲(Row-basedstorage)來講的。簡單來講二者的區別就是如何組織表(翻譯很差,直接抄原文了):
Ø Row-based storage stores atable in a sequence of rows.
Ø Column-based storage storesa table in a sequence of columns.
下面來看一個例子:
從上圖能夠很清楚地看到,行式存儲下一張表的數據都是放在一塊兒的,但列式存儲下都被分開保存了。因此它們就有了以下這些優缺點:
行式存儲
列式存儲
優勢
Ø 數據被保存在一塊兒
Ø INSERT/UPDATE容易
Ø 查詢時只有涉及到的列會被讀取
Ø 投影(projection)很高效
Ø 任何列都能做爲索引
缺點
Ø 選擇(Selection)時即便只涉及某幾列,全部數據也都會被讀取
Ø 選擇完成時,被選擇的列要從新組裝
Ø INSERT/UPDATE比較麻煩
注:關係型數據庫理論回顧 - 選擇(Selection)和投影(Projection)
回到頂部
2補充:數據壓縮
剛纔其實跳過了資料裏提到的另外一種技術:經過字典表壓縮數據。爲了方面後面的講解,這部分也順帶提一下了。
下面中才是那張表原本的樣子。通過字典表進行數據壓縮後,表中的字符串才都變成數字了。正由於每一個字符串在字典表裏只出現一次了,因此達到了壓縮的目的(有點像規範化和非規範化Normalize和Denomalize)
回到頂部
3查詢執行性能
下面就是最牛的圖了,經過一條查詢的執行過程說明列式存儲(以及數據壓縮)的優勢:
關鍵步驟以下:
去字典表裏找到字符串對應數字(只進行一次字符串比較)。
用數字去列表裏匹配,匹配上的位置設爲1。
把不一樣列的匹配結果進行位運算獲得符合全部條件的記錄下標。