史上最全的spark面試題——持續更新中

1.spark中的RDD是什麼,有哪些特性?html 答:RDD(Resilient Distributed Dataset)叫作分佈式數據集,是spark中最基本的數據抽象,它表明一個不可變,可分區,裏面的元素能夠並行計算的集合java Dataset:就是一個集合,用於存放數據的node Destributed:分佈式,能夠並行在集羣計算python Resilient:表示彈性的,彈性表示m
相關文章
相關標籤/搜索