一次查詢2

時間 2021-01-07

原文原文鏈接

用df計算sql,寫入hive表，用相同的聚合處理3類不同的distinct（因爲一次只算一個distinct可以利用shuffle的分發，提高速度，對大數據量的處理，比如20億條數據distinct，大概只能一次distinct一個值了。）發現對於數據量較小的第二，第三塊處理時間較快，對較多的groupping sets產生數據也較少，而對第一個有20億條需要處理的部分則輸入50G，產生2Tgr

>>阅读原文<<