Spark讀取HDFS文件，任務本地化(NODE_LOCAL)

時間 2020-12-25

原文原文鏈接

Spark也有數據本地化的概念（Data Locality），這和MapReduce的Local Task差不多，如果讀取HDFS文件，Spark則會根據數據的存儲位置，分配離數據存儲最近的Executor去執行任務。這麼理解沒錯，我搭建的Spark集羣情況是這樣： 15臺DataNode節點的HDFS集羣，我在每個DataNode上都部署了一個Spark Worker，並且，啓動Spark A

>>阅读原文<<