《Spark快速大數據分析》筆記Ch4 鍵值對操做

  鍵值對 RDD 是 Spark 中許多操做所須要的常見數據類型。本章就來介紹如何操做鍵值對RDD。鍵值對 RDD 一般用來進行聚合計算。咱們通常要先經過一些初始 ETL(抽取、轉化、裝載)操做來將數據轉化爲鍵值對形式。   本章也會討論用來讓用戶控制鍵值對 RDD 在各節點上分佈狀況的高級特性: 分區。有時,使用可控的分區方式把常被一塊兒訪問的數據放到同一個節點上, 能夠大大減小應用的通訊開銷
相關文章
相關標籤/搜索