Hive分區和分桶

Hive把表組織成分區(partition)。這是一種根據分區列(partition column,如日期)的值對錶進行粗略的劃分機制。使用分區可以加快數據分片(slice)的查詢速度。 表或分區可以進一步劃分爲桶(bucket)。它會爲數據提供額外的結構以獲取更高效的查詢處理。例如,通過根據用戶ID來劃分桶,我們可以在所有用戶集合的隨機樣本上快速計算基於用戶的查詢。 分桶適用場景: 數據抽樣(
相關文章
相關標籤/搜索