Spark 快速大數據分析 -垃圾郵件分類示例

垃圾郵件分析是一個用來快速瞭解MLlib的例子。這個程序用了兩個函數:HashingTF與LogisticRegressionWithSGD,前者從文本數據構建詞頻(termfrequency)特徵向量,後者使用隨機梯度下降法實現邏輯迴歸。 機器學習算法嘗試根據訓練數據(training data)使得表示算法行爲的數學目標最大化,並 以此來進行預測或作出決定。機器學習問題分爲幾種,包括分類、迴歸
相關文章
相關標籤/搜索