《Scala機器學習》一一3.2　理解Spark的架構

時間 2021-01-08

原文原文鏈接

3.2　理解Spark的架構並行化是將工作負載劃分爲在不同線程或不同節點上執行的子任務。下面介紹Spark實現並行化的原理，以及它如何管理子任務的執行和子任務之間的通信。 3.2.1　任務調度 Spark工作負載的劃分由彈性分佈式數據集（Resilient Distributed Dataset，RDD）的分區數決定，這是Spark的基本抽象和管道結構。RDD是一種可並行操作的、不可變元素的分區

>>阅读原文<<