spark 大型項目實戰(三十): --性能調優之在實際項目中使用Kryo序列化

在進行stage間的task的shuffle操作時,節點與節點之間的task會互相大量通過網絡拉取和傳輸文件,此時,這些數據既然通過網絡傳輸,也是可能要序列化的,就會使用Kryo 還可以進一步優化,優化這個序列化格式 默認情況下,Spark內部是使用Java的序列化機制,ObjectOutputStream / ObjectInputStream,對象輸入輸出流機制,來進行序列化 這種默認序列化機
相關文章
相關標籤/搜索