【算法工程師】spark面試問題總結

spark中的RDD是什麼,有哪些特性? RDD(Resilient Distributed Dataset)叫作彈性分佈式數據集,是spark中最基本的數據抽象,它表明一個不可變,可分區,裏面的元素能夠並行計算的集合。node RDD中的數據能夠存儲在內存或者磁盤中; RDD中的分區是能夠改變的; 【五大特性】web A list of partitions:一個分區列表,RDD中的數據都存儲在
相關文章
相關標籤/搜索