Spark distinct中numTasks含義

Spark中Transformation有個distinct([numTasks])算子 用於返回一個在源數據集去重之後的新數據集,即去重。 可一直沒弄明白官方文檔上提到的distinct方法中參數[numTasks]的具體含義,於是做了一下測試: 依次對numTasks值增大測試: numTasks=1 numTasks=2 numTasks=3 numTasks=5 numTasks=10 n
相關文章
相關標籤/搜索