實際工做中的Spark程序優化

本篇博客要點以下:html 一.Spark編程優化java RDD複用web 避免建立重複的RDD 儘量複用RDD RDD持久化數據庫 對常用的RDD進行持久化 選擇合適的持久化策略 使用Kryo優化序列化性能apache 使用廣播變量編程 合適的算子選擇緩存 儘可能避免使用shuffle算子 在Map端進行預聚合 選用更高性能的算子 二.參數調優網絡 Executor參數設置 Driver參數設
相關文章
相關標籤/搜索