機器學習庫(MLlib)指南(Spark 2.4.5)

MLlib是Spark的機器學習(ML)庫。它的目標是使機器學習的實際應用變得容易和可擴展。在較高層次上,它提供了以下工具: ML算法:常見的學習算法,如分類、迴歸、聚類和協作過濾 特徵化:特徵提取、轉換、降維和篩選 工作流(Pipelines):構建、評估和調整ML工作流的工具 持久性:保存和加載算法、模型和工作流 實用程序:線性代數、統計學、數據處理等。 注:基於DataFrame的API是主
相關文章
相關標籤/搜索