spark十億數據join優化

轉:https://daizuozhuo.github.io/spark-join/     最近在項目中用Spark join了幾十億的數據,在debug和不斷優化性能中感覺收穫良多,特此記錄一下。 任務很簡單,就是join兩張表,表A ship有幾千萬行,包含每日寄出去的包裹的信息,表B item有幾十億行,包括所有商品的屬性,我們需要把商品的屬性信息加到每個包裹裏面的商品上。 一開始我就是把
相關文章
相關標籤/搜索