一次查詢2

用df計算sql,寫入hive表,用相同的聚合處理3類不同的distinct(因爲一次只算一個distinct可以利用shuffle的分發,提高速度,對大數據量的處理,比如20億條數據distinct,大概只能一次distinct一個值了。)發現對於數據量較小的第二,第三塊處理時間較快,對較多的groupping sets產生數據也較少,而對第一個有20億條需要處理的部分則輸入50G,產生2Tgr
相關文章
相關標籤/搜索