Spark-Spark MLib簡介

Spark MLib簡介 hadopp實現機器學習:MapReduce也可以編寫機器學習,基於磁盤操作,多次迭代計算磁盤IO開銷大。 spark實現機器學習:spark是基於內存,只有shuffle操作需要落磁盤,實現管道化處理,在內存中完成數據交接。大大減少在磁盤的IO開銷。基於MLib庫。 MLib包含: 分類、迴歸、聚類、協同過濾、降維。 特徵化工具:特徵提取、轉化、降維、選擇工具。 流水線
相關文章
相關標籤/搜索