Spark性能調優

爲什麼80%的碼農都做不了架構師?>>>    原則一:避免創建重複的RDD 通常來說,我們在開發一個Spark作業時,首先是基於某個數據源(比如Hive表或HDFS文件)創建一個初始的RDD;接着對這個RDD執行某個算子操作,然後得到下一個RDD;以此類推,循環往復,直到計算出最終我們需要的結果。在這個過程中,多個RDD會通過不同的算子操作(比如map、reduce等)串起來,這個「RDD串」,
相關文章
相關標籤/搜索