Spark MLlib 學習入門筆記 - RDD基礎

RDD(Resilient Distributed Datasets)分佈式彈性數據集,將數據分佈存儲在不同節點的計算機內存中進行存儲和處理。RDD的任務被分成兩部分:Transformation和Action。Transformation用於對RDD的創建,即一個RDD轉換爲另一個RDD,Action是數據計算執行部分,如count、reduce、collect等。 Spark文檔裏有相關的說明
相關文章
相關標籤/搜索