數據挖掘三大方向迴歸、分類、聚類的區別及應用場景

讀完python數據分析與挖掘實戰,對於監督學習、非監督學習這兩個概念算是明白了,這裏總結下三個方向算法的優缺和使用場景python

一、迴歸算法算法

迴歸算法是對一種數值型連續變量進行預測和建模的監督學習算法,運用在股票走勢,房價走勢預測上,每個樣本都有標註真值進行監督算法網絡

1.1 線性迴歸函數

  適用條件:線性迴歸的理解與解釋都十分直觀,在變量是非線性關係的時候表現不好學習

1.2 迴歸樹大數據

1.3 深度學習優化

1.4 最近鄰算法深度學習

二、分類算法(監督學習)數據分析

對離散型隨機變量建模或預測的監督學習算法,運用在郵件過濾,金融欺詐等輸出爲分類的場景中集羣

2.1 Logistic迴歸

  適用條件:因變量通常只有1和0兩種取值(自變量是線性可分效果明顯)

2.2 決策樹

  基於「分類討論、逐步細化」思想的分類模型,模型直觀,易解釋

2.3 svm

  根據選擇不一樣的核函數,模型能夠是線性和非線性

2.4 隨機深林

  精度比決策樹高,缺點是因爲隨機性,喪失了決策樹的可解釋性

2.5 樸素貝葉斯

2.6 神經網絡

2.7 深度學習

三、聚類

聚類是無監督學習,該算法基於數據的內部結構尋找觀察樣本的天然族羣(即集羣)。使用案例包括細分客戶、新聞聚類、文章推薦等。

3.1 K-Means聚類

  將數據劃分爲預約的類數K,原理簡單便於處理大數據

3.2 K-中心聚類

3.3 系統聚類(多層次聚類)

 

記錄下三個方向經常使用的算法,只有最好的算法嗎,只有最適合的算法,算法的優化和調參,下次補充

相關文章
相關標籤/搜索