spark數據分析

首先要運行spark,加載 py4j,執行shell.py  初始化 spark sc(SparkContext) 編寫處理rdd的代碼 代碼分兩類 一類叫driver的代碼  driver只有一個 一類叫worker的代碼  worker有多個 worker的代碼有兩類算子(操作operate) 變換 transformation 懶執行 map flatMap groupByKey reduc
相關文章
相關標籤/搜索