hive數據抽樣

首先,咱們瞭解一下抽樣查詢的SQL語法。sql

分桶抽樣
TABLESAMPLE (BUCKET x OUT OF y [ON colname])
百份比抽樣
TABLESAMPLE (n PERCENT)
行抽樣
TABLESAMPLE (n ROWS)
大小抽樣
TABLESAMPLE (n{'b' | 'B' | 'k' | 'K' | 'm' | 'M' | 'g' | 'G'})

分桶抽樣ui

根據hash(uid) % 20進行分桶,抽取第一個桶的數據。
SELECT * FROM TABLE1 TABLESAMPLE(BUCKET 1 OUT OF 20 ON uid) t
隨機分桶,並抽取第一個桶的數據。
SELECT * FROM TABLE1 TABLESAMPLE(BUCKET 1 OUT OF 20 ON rand()) t

百份比抽樣code

SELECT * FROM TABLE1 TABLESAMPLE(10.5 PERCENT) t

行抽樣hash

SELECT * FROM TABLE1 TABLESAMPLE(105 ROWS) t

大小抽樣class

SELECT * FROM TABLE1 TABLESAMPLE(500M) t
相關文章
相關標籤/搜索