《Spark MLlib 機器學習實戰》1——讀後總結

《Spark MLlib 機器學習實戰》1——讀後總結 1 概念 2 安裝 3 RDD RDD包含兩種基本的類型:Transformation和Action。RDD的執行是延遲執行,只有Action算子纔會觸發任務的執行。 寬依賴和窄依賴用於切分任務,如果都是窄依賴,那麼就可以最大化的利用並行。 常用操作: cache 緩存 cartesian 笛卡爾積 coalesce 重分區 countByV
相關文章
相關標籤/搜索