Spark ML中Pipeline、特徵轉換和決策樹分類算法的使用

本文首發於個人我的博客QIMING.INFO,轉載請帶上連接及署名。node Spark中有關機器學習的庫已經在從MLlib往ML逐步遷移了,MLlib庫也將在Spark 3.0後中止維護,因此咱們須要儘快熟悉ML庫。 在Spark ML庫中,核心數據對象由RDD變爲了DataFrame,同時,ML庫中有一些特徵轉換的方法,並提供了Pipeline這一工具,可使用戶很方便的將對數據的不一樣處理組合
相關文章
相關標籤/搜索