30天搞定spark源碼系列-RDD篇

題記 通過本篇的梳理,預計大家可以對spark的RDD有更加深入的理解,而不是隻爲了面試做一個概念的理解。。。 RDD基本概念 1、定義 對於這個定義,網絡一搜一大把,這裏借用一下。 RDD(Resilient Distributed Dataset)彈性分佈式數據集,是spark框架中最基本的抽象元素。具有不可變,可伸縮、易並行的特點。 注意到RDD的組成了嗎?有一個Dataset 哦?那是不是
相關文章
相關標籤/搜索