Hive中的桶表入門(適用於抽樣查詢)

1、基本概念   (1)桶表是對某一列數據進行哈希取值以將數據打散,然後放到不同文件中存儲。   (2)在hive分區表中,分區中的數據量過於龐大時,建議使用桶。   (3)在分桶時,對指定字段的值進行hash運算得到hash值,並使用hash值除以桶的個數做取餘運算得到的值進行分桶,保證每個桶中有數據但每個桶中的數據不一定相等。            做hash運算時,hash函數的選擇取決於分
相關文章
相關標籤/搜索