Spark源碼系列(二)RDD詳解

Spark源碼系列(二)RDD詳解 1、什麼是RDD? 上一章講了Spark提交作業的過程,這一章我們要講RDD。簡單的講,RDD就是Spark的input,知道input是啥吧,就是輸入的數據。 RDD的全名是Resilient Distributed Dataset,意思是容錯的分佈式數據集,每一個RDD都會有5個特徵: 1、有一個分片列表。就是能被切分,和hadoop一樣的,能夠切分的數據才
相關文章
相關標籤/搜索