Spark MLLIb庫是機器學習的框架集合,這裏主要研究mllib目錄下的各類機器學習模型的實現代碼。按照如下順序依次學習。算法
線性模型(SGD):LinearRegressionWithSGD框架
svm模型:SVMWithSGDdom
推薦算法ALS、SVD:ALS機器學習
決策樹:函數
隨機森林:RandomForest學習
Adaboost:優化
FPgroup:spa
奇異值分解、特徵值和特徵向量rest
SVM的SMO算法??orm
val sentenceData = spark.createDataFrame(Seq(
(0.0, "Hi Logistic neat heard about Spark"),
(0.0, "I wish Java could use case classes"),
(1.0, "Logistic regression models are neat"))).toDF("label", "sentence")
val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
val wordsData = tokenizer.transform(sentenceData)
wordsData.show
val hashingTF = new HashingTF()
.setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(100)
val featurizedData = hashingTF.transform(wordsData)
println("featurizedData")
featurizedData.foreach(println(_))
// alternatively, CountVectorizer can also be used to get term frequency vectors
val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
val idfModel = idf.fit(featurizedData)
val rescaledData = idfModel.transform(featurizedData)
println("rescaledData")
rescaledData.foreach(println(_))
rescaledData.select("label", "features").show()
衡量預測值和結果值之間的差別性,經常使用的損失函數有如下幾種:
最小二乘:預測值和結果值的差值平方的均值。
最大似然:log(P(Y|x))
絕對距離:預測值和結果值差值的絕對數的均值
Spark中tree分類下的損失函數:
AbsoluteError:絕對差值
LogLoss:最大似然,用於分類
SquaredError:差值平方
Gradient
隨機梯度計算出損失函數最小化最快的方向(對損失函數求導),而後乘以學習步長,以此來更新權重向量。直到最終損失函數收斂接近於零。
LogisticGradient :用於多類別分類
LeastSquaresGradient:最小二乘,用於線性迴歸
HingeGradient:用於SVM