Apache Kylin 入門系列目錄數據庫
從 Hive 中導入表定義的具體步驟以下:編程
http://ip:7070/kylin
;導入表定義的界面有一個選擇框 Calculate column cardinality,勾選後系統會計算 Hive 表每一列的基數,基數是指數據集中出現的不一樣值的個數,例如「國家」是一個維度,若是有 200 個不一樣的值,那麼此維度的基數就是 200。架構
點擊 「Models」 選項卡,能夠看到項目已建立的 Models 以及 Cubes,點擊 「+ New」 按鈕,選擇 「New Model」 便可打開建立 Model 的窗口。因爲數據模型的差別,本文不介紹具體的案例,下面將主要介紹建立 Model 過程當中遇到的各類概念。post
Model Info 主要是填寫 Model 的基本信息,其中 「Model Name」 是必填項,模型名稱有兩點須要注意:優化
Data Model 主要是構建總體的數據模型,不管你的數據是星型模型或者是雪花模型,須要在這個地方創建數據表之間的關係。網站
創建數據模型的第一步是選擇事實表,選擇完成後點擊 「Add Lookup Table」 按鈕設置事實表與維度表之間的關係。 this
對 「Add Lookup Table」 頁面的幾點說明:編碼
Skip snapshot for this lookup table
選項指的是是否跳過生成 snapshotTable,因爲某些 Lookup 表特別大(大於 300M),若是某一個維度的基數比較大 ,可能會致使內存出現 OOM,因此在建立 snapshotTable 的時候會限制原始表的大小不能超過配置的一個上限值(kylin.snapshot.max-mb
,默認值300);經過上述的操做便可將事實表以及維度表聯繫起來,構成一個數據模型。設計
在 Dimensions 頁面選擇可能參與計算的維度,這裏被選擇的只是在 Cube 構建的時候擁有被選擇資格的維度,並非最後參與 Cube 構建的維度,推薦將維度表中的字段都選擇上。3d
通常而言,日期、商品種類、區域等會做爲維度。
在 Measures 頁面選擇可能用於計算的度量。
通常而言,銷售額、流量、溫溼度等會做爲度量。
在 Settings 頁面能夠設置分區以及過濾條件,其中分區是爲了系統能夠進行增量構建而設計的,目前 Kylin 支持基於日期的分區,在 「Partition Date Column」 後面選擇事實表或者維度表中的日期字段,而後選擇日期格式便可;過濾條件設置後,Kylin 在構建的時候會選擇符合過濾條件的數據進行構建。
須要注意的幾點:
time/date/datetime/integer
等;WHERE
;最後保存便可完成 Model 的建立,你能夠打開 Model 中的 Visualization 標籤頁查詢模型的錶鏈接狀況。
每個 Snapshot 是和一個 Hive 維度表對應的,生成的過程是:
Any Code,Code Any!
掃碼關注『AnyCode』,編程路上,一塊兒前行。