spark程序性能優化--合併文件

背景:把總量3T的文件和40G的文件合併按key合併,把3T中40G有的記錄換成40G的,40G中3T沒有的加上。原先是按其中一個數據域經過hash,把數據分成3個part進行處理,大概每個半小時,3個任務1.5小時處理完(之前3T的數據總量大約1.2T)。但隨着數據增加,每個部分數據變爲了1T,並且數據長度增長,原先半小時的任務跑2個小時都跑不完,進行優化。 (1)讀入優化:對每條記錄用spli
相關文章
相關標籤/搜索