Spark之序列化在生產中的應用

 序列化在分佈式應用的性能中扮演着重要的角色。格式化對象緩慢,或者消耗大量的字節格式化,會大大降低計算性能。在生產中,我們通常會創建大量的自定義實體對象,這些對象在網絡傳輸時需要序列化,而一種好的序列化方式可以讓數據有更好的壓縮比,從而提升網絡傳輸速率,提高spark作業的運行速度。通常這是在spark應用中第一件需要優化的事情。Spark的目標是在便利與性能中取得平衡,所以提供2種序列化的選擇。
相關文章
相關標籤/搜索