使用 Spark ML Pipeline 進行機器學習

時間 2020-01-22

原文原文鏈接

Spark ML Pipeline 的引入，是受到 scikit-learn 的啓發，雖然 MLlib 已經足夠簡單實用，但若是目標數據集結構複雜，須要屢次處理，或是在學習過程當中，要使用多個轉化器 (Transformer) 和預測器 (Estimator)，這種狀況下使用 MLlib 將會讓程序結構極其複雜。因此，一個可用於構建複雜機器學習工做流應用的新庫已經出現了，它就是 Spark 1.2

>>阅读原文<<