spark的優化-控制數據分區和分佈

數據分區:sql 在分佈式集羣裏,網絡通訊的代價很大,減小網絡傳輸能夠極大提高性能。apache mapreduce框架的性能開支主要在io和網絡傳輸,io由於要大量讀寫文件,它是不可避免的,可是網絡傳輸是能夠避免的,把大文件壓縮變小文件,從而減小網絡傳輸,可是增長了cpu的計算負載。緩存 spark裏面io也是不可避免的,可是網絡傳輸spark裏面進行了優化:網絡 spark把rdd進行分區(分
相關文章
相關標籤/搜索