spark的性能優化的方式

spark提供了兩種序列化機制,Java的序列化和kryo序列化,使用kryo序列化佔用更小的內存,可是kryo的缺點是:不是全部都能序列化,並且須要註冊 優化數據結構,好比優先使用數組和字符串,而不是集合 對屢次使用的rdd進行持久化和checkpoint() Java虛擬機的垃圾回收機制的調優,主要是調節新生代和老年代的大小和比例,經過配置參數來進行調節 提升並行度 spark.default
相關文章
相關標籤/搜索