Spark RDD、DataFrame和DataSet的區別

RDD RDD(Resilient Distributed Datasets)  ,彈性分佈式數據集, 是分佈式內存的一個抽象概念,RDD提供了一種高度受限的共享內存模型,即RDD是隻讀的記錄分區的集合,只能經過在其餘RDD執行肯定的轉換操做(如map、join和group by)而建立,然而這些限制使得實現容錯的開銷很低。對開發者而言,RDD能夠看做是Spark的一個對象,它自己運行於內存中,如
相關文章
相關標籤/搜索