Spark技術內幕:Storage 模塊整體架構

Storage模塊負責了Spark計算過程中所有的存儲,包括基於Disk的和基於Memory的。用戶在實際編程中,面對的是RDD,可以將RDD的數據通過調用org.apache.spark.rdd.RDD#cache將數據持久化;持久化的動作都是由Storage模塊完成的。包括Shuffle過程中的數據,也都是由Storage模塊管理的。可以說,RDD實現了用戶的邏輯,而Storage則管理了用戶
相關文章
相關標籤/搜索