《Spark快速大數據分析》拾遺

前言 上次的閱讀留下來幾個問題,在學完了scala以後再回來看看。固然也木有太大長進,不過不趕進度心態就好點了,靜下心來看看仍是木有很好理解的。web 1.數據分區 就是把pair RDD裏的數據元素,按照鍵值,經過某種巧妙(霧)的方法,分開放到工做節點上。分區比較好理解,重點在於爲何在對pair RDD進行join()操做的時候,分區會下降網絡傳輸的數據量。好比有RDD1[(1,2),(1,3)
相關文章
相關標籤/搜索