大數據——spark的RDD理解及寬依賴和窄依賴

1)RDD概念:Resilient Distributed Datasets  彈性分佈式數據集,是一個容錯的、並行的數據結構,可以讓用戶顯式地將數據存儲到磁盤和內存中,並能控制數據的分區。同時,RDD還提供了一組豐富的操作來操作這些數據。RDD是隻讀的記錄分區的集合,只能通過在其他RDD執行確定的轉換操作(transformation操作)而創建。RDD可看作一個spark的對象,它本身存在於內
相關文章
相關標籤/搜索