RDD理解及寬依賴和窄依賴

1)RDD概念:Resilient Distributed Datasets  彈性分佈式數據集,是一個容錯的、並行的數據結構,可讓用戶顯式地將數據存儲到磁盤和內存中,並能控制數據的分區。同時,RDD還提供了一組豐富的操做來操做這些數據。RDD是隻讀的記錄分區的集合,只能經過在其餘RDD執行肯定的轉換操做(transformation操做)而建立。RDD可看做一個spark的對象,它自己存在於內存
相關文章
相關標籤/搜索