讀完python數據分析與挖掘實戰,對於監督學習、非監督學習這兩個概念算是明白了,這裏總結下三個方向算法的優缺和使用場景python
一、迴歸算法算法
迴歸算法是對一種數值型連續變量進行預測和建模的監督學習算法,運用在股票走勢,房價走勢預測上,每個樣本都有標註真值進行監督算法網絡
1.1 線性迴歸函數
適用條件:線性迴歸的理解與解釋都十分直觀,在變量是非線性關係的時候表現不好學習
1.2 迴歸樹大數據
1.3 深度學習優化
1.4 最近鄰算法深度學習
二、分類算法(監督學習)數據分析
對離散型隨機變量建模或預測的監督學習算法,運用在郵件過濾,金融欺詐等輸出爲分類的場景中集羣
2.1 Logistic迴歸
適用條件:因變量通常只有1和0兩種取值(自變量是線性可分效果明顯)
2.2 決策樹
基於「分類討論、逐步細化」思想的分類模型,模型直觀,易解釋
2.3 svm
根據選擇不一樣的核函數,模型能夠是線性和非線性
2.4 隨機深林
精度比決策樹高,缺點是因爲隨機性,喪失了決策樹的可解釋性
2.5 樸素貝葉斯
2.6 神經網絡
2.7 深度學習
三、聚類
聚類是無監督學習,該算法基於數據的內部結構尋找觀察樣本的天然族羣(即集羣)。使用案例包括細分客戶、新聞聚類、文章推薦等。
3.1 K-Means聚類
將數據劃分爲預約的類數K,原理簡單便於處理大數據
3.2 K-中心聚類
3.3 系統聚類(多層次聚類)
記錄下三個方向經常使用的算法,只有最好的算法嗎,只有最適合的算法,算法的優化和調參,下次補充