spark相關面試題總結

(根據博客總結並不斷增加自己的內容) 1.spark中的RDD是什麼,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分佈式數據集,是spark中最基本的數據抽象,它代表一個不可變,可分區,裏面的元素可以並行計算的集合 Dataset:就是一個集合,用於存放數據的 Destributed:分佈式,可以並行在集羣計算 Resilient:表示彈性的,彈性表示
相關文章
相關標籤/搜索