spark十億數據join優化

時間 2021-01-18

原文原文鏈接

轉：https://daizuozhuo.github.io/spark-join/ 最近在項目中用Spark join了幾十億的數據，在debug和不斷優化性能中感覺收穫良多，特此記錄一下。任務很簡單，就是join兩張表，表A ship有幾千萬行，包含每日寄出去的包裹的信息，表B item有幾十億行，包括所有商品的屬性，我們需要把商品的屬性信息加到每個包裹裏面的商品上。一開始我就是把

>>阅读原文<<