Spark架構及原理

開發角度 原則一:避免建立重複的RDD 原則二:儘量用同一個RDD 原則三:對屢次使用的RDD進行持久化 如何選擇一種最合適的持久化策略 MEMORY_ONLY MEMORY_ONLY_SER MEMORY_AND_DISK_SER 不考慮:DISK_ONLY和_2後綴 原則四:儘可能避免使用shuffle類算子 能不用就不用 能不能用非shuffle類的算子去替代非shuffle類的join -
相關文章
相關標籤/搜索