Spark學習之鍵值對操作總結

  鍵值對 RDD 是 Spark 中許多操作所需要的常見數據類型。鍵值對 RDD 通常用來進行聚合計算。我們一般要先通過一些初始 ETL(抽取、轉化、裝載)操作來將數據轉化爲鍵值對形式。鍵值對 RDD 提供了一些新的操作接口(比如統計每個產品的評論,將數據中鍵相同的分爲一組,將兩個不同的 RDD 進行分組合並等)。我們也會討論用來讓用戶控制鍵值對 RDD 在各節點上分佈情況的高級特性:分區。有時
相關文章
相關標籤/搜索