使用 Spark ML Pipeline 進行機器學習

Spark ML Pipeline 的引入,是受到 scikit-learn 的啓發,雖然 MLlib 已經足夠簡單實用,但若是目標數據集結構複雜,須要屢次處理,或是在學習過程當中,要使用多個轉化器 (Transformer) 和預測器 (Estimator),這種狀況下使用 MLlib 將會讓程序結構極其複雜。因此,一個可用於構建複雜機器學習工做流應用的新庫已經出現了,它就是 Spark 1.2
相關文章
相關標籤/搜索