Spark機器學習導論

時間 2019-11-21

標籤 spark 機器學習導論欄目 Spark 简体版

原文原文鏈接

Spark MLLIb庫是機器學習的框架集合，這裏主要研究mllib目錄下的各類機器學習模型的實現代碼。按照如下順序依次學習。算法

線性模型（SGD）：LinearRegressionWithSGD框架

svm模型：SVMWithSGDdom

推薦算法ALS、SVD：ALS機器學習

決策樹：函數

隨機森林：RandomForest學習

Adaboost：優化

FPgroup：spa

奇異值分解、特徵值和特徵向量rest

SVM的SMO算法？？orm

1. TFIDF

val sentenceData = spark.createDataFrame(Seq(

(0.0, "Hi Logistic neat heard about Spark"),

(0.0, "I wish Java could use case classes"),

(1.0, "Logistic regression models are neat"))).toDF("label", "sentence")

val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")

val wordsData = tokenizer.transform(sentenceData)

wordsData.show

val hashingTF = new HashingTF()

.setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(100)

val featurizedData = hashingTF.transform(wordsData)

println("featurizedData")

featurizedData.foreach(println(_))

// alternatively, CountVectorizer can also be used to get term frequency vectors

val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

val idfModel = idf.fit(featurizedData)

val rescaledData = idfModel.transform(featurizedData)

println("rescaledData")

rescaledData.foreach(println(_))

rescaledData.select("label", "features").show()

損失函數（目標函數）

衡量預測值和結果值之間的差別性，經常使用的損失函數有如下幾種：

最小二乘：預測值和結果值的差值平方的均值。

最大似然：log（P（Y|x））

絕對距離：預測值和結果值差值的絕對數的均值

Spark中tree分類下的損失函數：

AbsoluteError：絕對差值

LogLoss：最大似然，用於分類

SquaredError：差值平方

優化函數（隨機梯度/求導）

Gradient

隨機梯度計算出損失函數最小化最快的方向（對損失函數求導），而後乘以學習步長，以此來更新權重向量。直到最終損失函數收斂接近於零。

LogisticGradient ：用於多類別分類

LeastSquaresGradient：最小二乘，用於線性迴歸

HingeGradient：用於SVM

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。