論寬依賴、窄依賴與shuffle

概念上來講網絡     Shuffle的含義就是洗牌,將數據打散,父RDD一個分區中的數據若是給了子RDD的多個分區(只要存在這種可能),就是shuffle。Shuffle會有網絡傳輸數據,可是有網絡傳輸,並不意味着就是shuffle。code 窄依賴:沒有發生shuffleblog 寬依賴:存在shufflehash     也許你們看了上面的說法只是有個初步的印象,下面我將以join爲例進行講
相關文章
相關標籤/搜索