Tuning Spark( 內存管理和數據序列化)

因爲大多數spark計算的內存特性,spark程序可能會受到集羣中任何資源的瓶頸:CPU、網絡帶寬或內存。大多數狀況下,若是數據適合內存,瓶頸是網絡帶寬,但有時還須要進行一些調整,例如以序列化形式存儲RDD,以減小內存使用。web 數據序列化 序列化在任何分佈式應用程序的性能中起着重要的做用。 很慢的將對象序列化或消費大量字節的格式將會大大減慢計算速度。 這多是優化 Spark 應用程序的第一件事
相關文章
相關標籤/搜索