Spark讀取HDFS文件，任務本地化(NODE_LOCAL)

時間 2019-12-07

標籤 spark 讀取 hdfs 文件任務本地化 node local 欄目 Spark 简体版

原文原文鏈接

Spark也有數據本地化的概念（Data Locality），這和MapReduce的Local Task差很少，若是讀取HDFS文件，Spark則會根據數據的存儲位置，分配離數據存儲最近的Executor去執行任務。sql 這麼理解沒錯，我搭建的Spark集羣狀況是這樣：網絡 15臺DataNode節點的HDFS集羣，我在每一個DataNode上都部署了一個Spark Worker，而且，啓動S

>>阅读原文<<