Spark中的數據本地性

分佈式數據並行環境下,保持數據的本地性是非常重要的內容,事關分佈式系統性能高下。   概念: block : HDFS的物理空間概念,固定大小,最小是64M,可以是128,256 。。也就是說單個文件大於block的大小,肯定會被切分,被切分的數目大概是:比如文件是250M,block是64M,就會被分爲4個block,64+64+64+58,最後一個block沒有滿,一個block只能有一個文件
相關文章
相關標籤/搜索