Spark算子執行流程詳解之二

時間 2019-12-06

標籤 spark 算子執行流程詳解之二欄目 Spark 简体版

原文原文鏈接

4.count def count(): Long = sc.runJob(this, Utils.getIteratorSize_).sum算法計算數據總量，每一個分區各自計算本身的總數，而後彙總到driver端，driver端再把每一個分區的總數相加統計出對應rdd的數據量，其流程以下：apache 5.countApprox 在必定的超時時間以內返回rdd元素的個數，其rdd元素的總數

>>阅读原文<<