Spark-DataFrame、DataSet、RDD的區別

RDD(彈性分佈式數據集) RDD(Resilient Distributed Dataset)叫做分佈式數據集,是 Spark 中最基本的數據抽象,它代表一個不可變、可分區、裏面的元素可並行計算的集合。RDD 具有數據流模型的特點: 自動容錯、位置感知性調度和可伸縮性。RDD 允許用戶在執行多個查詢時顯式地將工作集緩 存在內存中,後續的查詢能夠重用工作集,這極大地提升了查詢速度。 可以從三個方面
相關文章
相關標籤/搜索