【總結】Kylin建立Cube,以及優化

根據上篇文章Kylin建立Model以後,建立Cubeide


第一步,Cube Info大數據

填寫Cube基本信息編碼

wKiom1jGUUfR8CO-AABSsgYP3zU968.png

第二步,Dimensionsurl

spacer.gifwKioL1jGUVXz_QZDAADDwwBmVKA285.png

第三步,Measuresspa

spacer.gifwKiom1jGUWKzB0qlAABG8PbrADM629.png

第四步,Refresh Settingblog

Auto Merge Thresholds :自動合併閾值,按天增長的segement,每7天合併一次;7天的segment每28天合併一次get

Retention Threshold:默認爲0,保留歷史全部的segment(hotelinfo每一個分區都是全量數據,因此此處只保留一天的數據)it

Partition Start Date:分區開始時間io

spacer.gifwKioL1jGUXGzfIZGAABP_BASm7k738.png

第五步,Advanced Settingclass

Mandatory Dimensions:強制維度,表示當前ID的Aggregation Group中的全部Cuboid的每個Cuboid都包含該項配置的維度

Hierarchy Dimensions:層級維度,當有多個維度可以存在層級關係,能夠在該配置項中,將這些維度配置爲層級維度

例如,國家,省,城市三個維度

Joint Dimensions:聯合維度,聯合維度中的多個維度,在查詢中,要麼一塊兒出現,要麼都不出現。

spacer.gifwKioL1jGUZqhjD8lAABqVD95QQM797.png

Encoding:編碼,指定了該維度的值應該使用何種方式進行編碼,選用合適的編碼可以有效減小維度對空間是使用,在大數據量狀況下效果明顯。

Shard By:按維度對數據進行分片,默認Cuboid的數據分片策略是隨機的,而且只能設置一個維度爲Share By。

若是Cuboid中的某些行的Shard By Dimension的值是相同的,那麼這些行的數據最終將會分配到同一個分片中。

例如:好多酒店都在一個城市當中,若是將CITYID維度設置爲Share By,則同一個城市的酒店數據將分配到同一個分片中。

spacer.gifwKiom1jGUaagJS89AACbV6AcnMo293.png

第六步,Configuration Overwrites

覆蓋kylin.properties中的配置

spacer.gifwKiom1jGUbby6kZ8AABA5up9M20399.png

第七步,Overivew

Cube概覽,點擊Save保存

spacer.gifwKioL1jGUb_yXDIiAABFKXHw9ko219.png

相關文章
相關標籤/搜索