Hive中的數據採樣

當數據集比較大時,可能須要經過採集一部分數據集進行分析,稱之爲採樣。在HQL中支持三種方式的採樣:隨機採樣(random sampling)、分桶表採樣(bucket table sampling)以及塊採樣(block sampling)。sql 1.隨機採樣 隨機採樣使用rand()函數和limit關鍵字。其中distribute和sort關鍵字用來保證抽取的數據是隨機分佈的,這種方式比較有效
相關文章
相關標籤/搜索