26.大數據學習之旅——Spark調優&源碼解讀&SparkSQL入門

時間 2020-12-26

標籤大數據 spark 欄目 Spark 简体版

原文原文鏈接

Spark調優—上篇更好的序列化實現 Spark用到序列化的地方 1）Shuffle時需要將對象寫入到外部的臨時文件。 2）每個Partition中的數據要發送到worker上，spark先把RDD包裝成task對象，將task通過網絡發給worker。 3）RDD如果支持內存+硬盤，只要往硬盤中寫數據也會涉及序列化。默認使用的是java的序列化。但java的序列化有兩個問題，一個是性能相對

>>阅读原文<<