爲何MaxCompute採用列式存儲？列式存儲和行式存儲的主要區別在哪

時間 2019-12-12

標籤爲何 maxcompute 採用列式存儲主要區別在哪简体版

原文原文鏈接

摘要： 1 爲何要按列存儲列式存儲(Columnar or column-based)是相對於傳統關係型數據庫的行式存儲(Row-basedstorage)來講的。簡單來講二者的區別就是如何組織表(翻譯很差，直接抄原文了)： Ø Row-based storage stores atable in a sequence of rows. Ø Column-based storage storesa table in a sequence of columns. 下面來看一個例子：從上圖能夠很清楚地看到，行式存儲下一張表的數據都是放在一塊兒的，但列式存儲下都被分開保存了。mysql

點此查看原文：http://click.aliyun.com/m/41691/ sql

1 爲何要按列存儲

列式存儲(Columnar or column-based)是相對於傳統關係型數據庫的行式存儲(Row-basedstorage)來講的。簡單來講二者的區別就是如何組織表(翻譯很差，直接抄原文了)：數據庫

Ø Row-based storage stores atable in a sequence of rows.性能

Ø Column-based storage storesa table in a sequence of columns.spa

下面來看一個例子：.net

從上圖能夠很清楚地看到，行式存儲下一張表的數據都是放在一塊兒的，但列式存儲下都被分開保存了。因此它們就有了以下這些優缺點：翻譯

行式存儲orm

列式存儲索引

優勢字符串

Ø 數據被保存在一塊兒

Ø INSERT/UPDATE容易

Ø 查詢時只有涉及到的列會被讀取

Ø 投影(projection)很高效

Ø 任何列都能做爲索引

缺點

Ø 選擇(Selection)時即便只涉及某幾列，全部數據也都會被讀取

Ø 選擇完成時，被選擇的列要從新組裝

Ø INSERT/UPDATE比較麻煩

注：關係型數據庫理論回顧 - 選擇(Selection)和投影(Projection)

2數據壓縮

剛纔其實跳過了資料裏提到的另外一種技術：經過字典表壓縮數據。爲了方面後面的講解，這部分也順帶提一下了。

下面中才是那張表原本的樣子。通過字典表進行數據壓縮後，表中的字符串才都變成數字了。正由於每一個字符串在字典表裏只出現一次了，因此達到了壓縮的目的(有點像規範化和非規範化Normalize和Denomalize)

3查詢執行性能

下面就是最牛的圖了，經過一條查詢的執行過程說明列式存儲(以及數據壓縮)的優勢：

關鍵步驟以下：

1. 去字典表裏找到字符串對應數字(只進行一次字符串比較)。

2. 用數字去列表裏匹配，匹配上的位置設爲1。

3. 把不一樣列的匹配結果進行位運算獲得符合全部條件的記錄下標。

4. 使用這個下標組裝出最終的結果集。

相關文章

相關標籤/搜索

分佈式存儲

XLink 和 XPointer 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<