實際工做中的Spark程序優化

時間 2020-05-13

標籤實際 spark 程序優化欄目 Spark 简体版

原文原文鏈接

本篇博客要點以下:html 一.Spark編程優化java RDD複用web 避免建立重複的RDD 儘量複用RDD RDD持久化數據庫對常用的RDD進行持久化選擇合適的持久化策略使用Kryo優化序列化性能apache 使用廣播變量編程合適的算子選擇緩存儘可能避免使用shuffle算子在Map端進行預聚合選用更高性能的算子二.參數調優網絡 Executor參數設置 Driver參數設

>>阅读原文<<