RDD-Partitioner

概要 Spark RDD主要由Dependency、Partition、Partitioner組成,這篇介紹最後一部分Partitioner。Partition記錄了數據split的邏輯,Dependency記錄的是transformation操作過程中Partition的演化,Partitioner是shuffle過程中key重分區時的策略,即計算key決定k-v屬於哪個分區。 Partitio
相關文章
相關標籤/搜索
本站公眾號
   歡迎關注本站公眾號,獲取更多信息