[1.2]Spark core編程(一)之RDD總論與建立RDD的三種方式

參考 DT大數據夢工廠 Spark官網html 場景 RDD的理解 1、RDD是基於工做集的應用抽象;是分佈式、函數式編程的抽象。 MapReduce:基於數據集的處理。二者的共同特徵:位置感知(具體數據在哪裏)、容錯、負載均衡。 基於數據集的處理:從物理存儲設備上加載數據,而後操做數據,寫入物理存儲設備。eg、Hadoop MapReduce 不適應場景: 一、不適合於大量的迭代 二、不適合於交
相關文章
相關標籤/搜索