Spark任務執行流程解析

Spark任務流程以下圖所示:shell           下面會根據該圖對每一個步驟作詳細介紹:    數組 一、RDD Objects緩存 RDD(ResilientDistributed Dataset)叫作分佈式數據集,是Spark中最基本的數據抽象,它表明一個不可變、可分區、裏面的元素可並行計算的集合。RDD具備數據流模型的特色:自動容錯、位置感知性調度和可伸縮性。RDD容許用戶在執行
相關文章
相關標籤/搜索