RDD底層實現原理

RDD底層實現原理 RDD是一個分佈式數據集,顧名思義,其數據應該分部存儲於多臺機器上。事實上,每個RDD的數據都以Block的形式存儲於多臺機器上,下圖是Spark的RDD存儲架構圖,其中每個Executor會啓動一個BlockManagerSlave,並管理一部分Block;而Block的元數據由Driver節點的BlockManagerMaster保存。BlockManagerSlave生成
相關文章
相關標籤/搜索