JavaSpark-鍵值對操做(PairRDD)

鍵值對 RDD 一般用來進行聚合計算。先經過一些初始 ETL(抽取、轉 化、裝載)操做來將數據轉化爲鍵值對形式。鍵值對 RDD 提供了一些新的操做接口 讓用戶控制鍵值對 RDD 在各節點上分佈狀況的高級特性:分區。 使用可控的分區方式把常被一塊兒訪問的數據放到同一個節點上,能夠大大減小應用的通訊 開銷。這會帶來明顯的性能提高。css 動機 Spark 爲包含鍵值對類型的 RDD 提供了一些專有的操
相關文章
相關標籤/搜索