[pyspark] 儘量用reduceByKey而不用groupByKey

  最近工作的時候寫了一小段用python操作spark的代碼,主要流程是先讀取一個較大的數據表,然後根據部分字段分組,統計每組的行數。簡而言之就是一個word count的工作。但是寫的代碼單機跑很慢,即使放到集羣上在10個節點上跑也花了1小時。   代碼給老大一看就發現寫的不行。一個關鍵問題就是用在分組的時候用了groupByKey, 然後再count。老大推薦我用reduceByKey。改完
相關文章
相關標籤/搜索