Spark計算模型RDD

RDD概念及特徵: RDD(Resilient Distributed Daraset)叫做彈性分佈式數據集,是spark中最基本的數據抽象,它代表一個不可變、可分區,裏面的元素可並行計算的集合。RDD具有數據流模型的特點:自動容錯,位置感知性調度和可伸縮性。RDD允許用戶在執行多個查詢時顯示地將數據還存在內存中,後續的查詢能夠重用這些數據,這極大的提升了查詢速度。 彈性分佈式數據集合,並且是sp
相關文章
相關標籤/搜索