Spark機器學習導論

Spark MLLIb庫是機器學習的框架集合,這裏主要研究mllib目錄下的各類機器學習模型的實現代碼。按照如下順序依次學習。算法

線性模型(SGD):LinearRegressionWithSGD框架

svm模型:SVMWithSGDdom

推薦算法ALS、SVD:ALS機器學習

 

決策樹:函數

隨機森林:RandomForest學習

Adaboost:優化

FPgroup:spa

奇異值分解、特徵值和特徵向量rest

SVM的SMO算法??orm

 

    1. TFIDF

val sentenceData = spark.createDataFrame(Seq(

      (0.0, "Hi Logistic neat heard about Spark"),

      (0.0, "I wish Java could use case classes"),

      (1.0, "Logistic regression models are neat"))).toDF("label", "sentence")

 

    val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")

  

    val wordsData = tokenizer.transform(sentenceData)

    wordsData.show

 

    val hashingTF = new HashingTF()

      .setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(100)

     

  

    val featurizedData = hashingTF.transform(wordsData)

    println("featurizedData")

      featurizedData.foreach(println(_))

    // alternatively, CountVectorizer can also be used to get term frequency vectors

 

    val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")

    val idfModel = idf.fit(featurizedData)

 

    val rescaledData = idfModel.transform(featurizedData)

    println("rescaledData")

    rescaledData.foreach(println(_))

    rescaledData.select("label", "features").show()

   

  1. 損失函數(目標函數)

衡量預測值和結果值之間的差別性,經常使用的損失函數有如下幾種:

最小二乘:預測值和結果值的差值平方的均值。

最大似然:logPY|x))

絕對距離:預測值和結果值差值的絕對數的均值

Sparktree分類下的損失函數:

AbsoluteError:絕對差值

LogLoss:最大似然,用於分類

SquaredError:差值平方

 

 

  1. 優化函數(隨機梯度/求導)

Gradient

隨機梯度計算出損失函數最小化最快的方向(對損失函數求導),而後乘以學習步長,以此來更新權重向量。直到最終損失函數收斂接近於零。

LogisticGradient  :用於多類別分類

LeastSquaresGradient:最小二乘,用於線性迴歸

HingeGradient:用於SVM

相關文章
相關標籤/搜索