Spark 調優 (英文原文:Tuning Spark)

由於大部分Spark程序都具備「內存計算」的天性,因此集羣中的全部資源:CPU、網絡帶寬或者是內存都有可能成爲Spark程序的瓶頸。一般狀況下, 若是數據徹底加載到內存那麼網絡帶寬就會成爲瓶頸,可是你仍然須要對程序進行優化,例如採用序列化的方式保存RDD數據(Resilient Distributed Datasets),以便減小內存使用。該文章主要包含兩個議題:數據序列化和內存優化,數據序列化不
相關文章
相關標籤/搜索