26.大數據學習之旅——Spark調優&源碼解讀&SparkSQL入門

Spark調優—上篇 更好的序列化實現 Spark用到序列化的地方 1)Shuffle時需要將對象寫入到外部的臨時文件。 2)每個Partition中的數據要發送到worker上,spark先把RDD包裝成task對象,將task通過 網絡發給worker。 3)RDD如果支持內存+硬盤,只要往硬盤中寫數據也會涉及序列化。 默認使用的是java的序列化。但java的序列化有兩個問題,一個是性能相對
相關文章
相關標籤/搜索