Spark的一些優化點

由於spark的計算都是基於內存的,他的瓶頸有:cpu,帶寬(network bandwidth),memory。一般狀況下,若是數據是在內存裏面的,瓶頸就在帶寬上面,你也能夠作一些其餘優化,如RDD序列化(減小內存的使用)。html Data Serialization數據序列化 序列化在咱們的分佈式應用中扮演了一個很是重要的角色。 默認使用JAVA serialization,比較靈活可是比較
相關文章
相關標籤/搜索