彈性分佈式數據集RDD(概念)

RDD概述: RDD(Resilient DistributedDataset)叫做分佈式數據集 是Spark中最基本的數據抽象,它代表一個不可變,可分區,裏面的元素可並行計算的集合 RDD具有數據流模型的特點:自動容錯;位置感知性調度和可伸縮性. RDD允許用戶在執行多個查詢時顯式地將工作集緩存在內存中,後續的查詢能夠重用工作集,這極大地提升了查詢速度 RDD的屬性: 1.一組分片(Partit
相關文章
相關標籤/搜索