pyspark+dataframe+wordcount 版本

網上現有的wordcount通常包括:scala、Java、python版本,且爲基於RDD數據格式的方法,該方法較簡單,但門檻較高,若採用dataframe的方法,則結果更好理解,但查詢函數的過程較爲複雜,網上沒有找到合適的版本,因此本身寫一個,能夠採用sparksql的語句進行wordcount的計算。代碼以下:html from pyspark.sql import SparkSession
相關文章
相關標籤/搜索