spark partition 和HDFS的block

hdfs-block位於存儲空間;spark-partition位於計算空間; hdfs-block的大小是固定的;spark-partition大小是不固定的; hdfs-block是有冗餘的、不會輕易丟失;spark-partition(RDD)沒有冗餘設計、丟失之後重新計算得到; 上圖中的每個RDD包含三個partition 注意: textFile方法底層封裝的是讀取MR讀取文件的方式,讀
相關文章
相關標籤/搜索