Hive--數據抽樣的經常使用三種方法(隨機/數據塊/分桶)

一、隨機抽樣(rand()函數) 方法一:order by與rand函數結合 limit關鍵字限制抽樣返回的數據 案例:order by 全局排序耗時長web select * from app.table_name order by rand() limit 100; 方法二:distribute和sort與rand函數結合 limit關鍵字限制抽樣返回的數據 案例:rand函數前的dis
相關文章
相關標籤/搜索