Spark機器學習入門實例——大數據集(30+g)二分類

時間 2021-01-05

原文原文鏈接

本篇教程將引領大家，通過使用spark的機器學習性能和 Scala ，練習一個基於超出內存可加載範圍的數據集的邏輯迴歸分類器（即LR分類器）。假如你想創建一個機器學習模型，但卻發現你的輸入數據集與你的計算機內存不相符？對於多機器的計算集羣環境中通常可以使用如Hadoop和Apache Spark分佈式計算工具。然而，Apache Spark能夠在本地機器獨立模式上，甚至在當輸入數據集大於你的計算

>>阅读原文<<