spark數據分析

時間 2020-12-30

原文原文鏈接

首先要運行spark，加載 py4j，執行shell.py 初始化 spark sc（SparkContext）編寫處理rdd的代碼代碼分兩類一類叫driver的代碼 driver只有一個一類叫worker的代碼 worker有多個 worker的代碼有兩類算子（操作operate）變換 transformation 懶執行 map flatMap groupByKey reduc

>>阅读原文<<