大數據技術學習:彈性分佈式數據集RDD

今天千鋒老師給大家分享的技術學習是:淺談彈性分佈式數據集RDD。 一、RDD定義 RDD(Resilient Distributed Dataset)叫做分佈式數據集,是Spark中基本的數據抽象,它代表一個不可變(數據和元數據)、可分區、裏面的元素可並行計算的集合。其特點在於自動容錯,位置感知性調度和可伸縮性。 二、RDD的屬性 1、一組分片。即數據集的基本組成單位。對於RDD來說,每個分片都會
相關文章
相關標籤/搜索