spark數據分析(2)

首先來理解(0,0)這個初始值:說明aggregate()方法會返回一個元組,而因爲是分佈式集羣來進行分析,所以第一個lambda表達式是每個worker所執行的,比如我們有三個worker,那麼他們得到的結果分別是:(14,2);(8,2);(14,2)。而第二個lambda表達式則是driver把那三個worker的結果進行彙總計算,得到(36,6)這一結果 而在現實生產中,我們需要儘可能的去
相關文章
相關標籤/搜索