spark十億數據join優化

時間 2019-12-04

標籤 spark 十億數據 join 優化欄目 Spark 简体版

原文原文鏈接

轉：https://daizuozhuo.github.io/spark-join/java 最近在項目中用Spark join了幾十億的數據，在debug和不斷優化性能中感受收穫良多，特此記錄一下。git 任務很簡單，就是join兩張表，表A ship有幾千萬行，包含每日寄出去的包裹的信息，表B item有幾十億行，包括全部商品的屬性，咱們須要把商品的屬性信息加到每一個包裹裏面的商品上。gith

>>阅读原文<<