spark十億數據join優化

轉:https://daizuozhuo.github.io/spark-join/java 最近在項目中用Spark join了幾十億的數據,在debug和不斷優化性能中感受收穫良多,特此記錄一下。git 任務很簡單,就是join兩張表,表A ship有幾千萬行,包含每日寄出去的包裹的信息,表B item有幾十億行,包括全部商品的屬性,咱們須要把商品的屬性信息加到每一個包裹裏面的商品上。gith
相關文章
相關標籤/搜索