《Scala機器學習》一一3.2 理解Spark的架構

3.2 理解Spark的架構 並行化是將工作負載劃分爲在不同線程或不同節點上執行的子任務。下面介紹Spark實現並行化的原理,以及它如何管理子任務的執行和子任務之間的通信。 3.2.1 任務調度 Spark工作負載的劃分由彈性分佈式數據集(Resilient Distributed Dataset,RDD)的分區數決定,這是Spark的基本抽象和管道結構。RDD是一種可並行操作的、不可變元素的分區
相關文章
相關標籤/搜索