【大數據】SparkCore學習筆記

  第1章 RDD概述 1.1 什麼是RDD RDD(Resilient Distributed Dataset)叫作分佈式數據集,是Spark中最基本的數據抽象。代碼中是一個抽象類,它表明一個不可變、可分區、裏面的元素可並行計算的集合。html 1.2 RDD的屬性   1) 一組分區(Partition),即數據集的基本組成單位;java 2) 一個計算每一個分區的函數;mysql 3) RD
相關文章
相關標籤/搜索