通過分區(Partitioning)提高Spark的運行性能

時間 2021-07-14

原文原文鏈接

　在使用Spark的過程中他們發現了一個能夠提高Spark job性能的一個技巧，也就是修改數據的分區數，本文將舉個例子並詳細地介紹如何做到的。文章目錄 1 查找質數 2 爲什麼會出現這種情況？ 3 如何解決查找質數　　比如我們需要從2到2000000之間尋找所有的質數。我們很自然地會想到先找到所有的非質數，剩下的所有數字就是我們要找的質數。　　我們首先遍歷2到2000000之間的每個數，