Extract Fact Table Distinct Columns(MR) 流程和源碼解析

Extract Fact Table Distinct Columns job 進行統計估算和字典編碼、範圍計算,具體主要做3件事情:1、HLL估算統計每個cuboid的結果條數;2、所有非Derived維度列的範圍(min-max);3、所有需要字典編碼的列進行字典編碼;這3部分內容都會存儲到HDFS上,共後續步驟使用。本文所有的講解根據MR實現進行講解,Spark大家對照思路進行分析。 執行入
相關文章
相關標籤/搜索