[pyspark] 儘量用reduceByKey而不用groupByKey

時間 2021-01-07

標籤 python spark 欄目 Python 简体版

原文原文鏈接

　　最近工作的時候寫了一小段用python操作spark的代碼，主要流程是先讀取一個較大的數據表，然後根據部分字段分組，統計每組的行數。簡而言之就是一個word count的工作。但是寫的代碼單機跑很慢，即使放到集羣上在10個節點上跑也花了1小時。　　代碼給老大一看就發現寫的不行。一個關鍵問題就是用在分組的時候用了groupByKey, 然後再count。老大推薦我用reduceByKey。改完

>>阅读原文<<