1、機器學習模型按照可以使用的數據類型分爲監督學習和無監督學習兩大類。算法
1-監督學習主要包括用於分類和用於迴歸的模型:機器學習
1)分類:線性分類器(如LR)、支持向量機(SVM)、樸素貝葉斯(NB)、K近鄰(KNN)、決策樹(DT)、集成模型(RF/GDBT等)函數
2)迴歸:線性迴歸、支持向量機(SVM)、K近鄰(KNN)、迴歸樹(DT)、集成模型(ExtraTrees/RF/GDBT)性能
2-無監督學習主要包括:數據聚類(K-means)/ 數據降維(PCA)等等.學習
2、根據模型特性而言:spa
1-各個模型分別基於哪些數學假設、適合處理什麼樣的數據、優缺點、評測指標及其計算方法ci
模型名稱 | 數學假設 | 模型優缺點 | 評測指標及其計算方法 |
LR | 假設特徵與分類結果存在線性關係數學 使用sigmoid函數映射到0-1io |
與隨機梯度上升算法相比,預測精度準確,table 可是耗費時間長 |
準確性(Accuracy) 召回率(Recall) 精確率(Precision)以及F1 |
NB | 各個維度上的特徵被分類的條件概 率之間是相互獨立的、貝葉斯公式 |
普遍用於文本分類 優勢:速度快,參數估計的個數銳減 缺點:在特徵關聯性較強的任務性能差 |
同上 |
集成模型 | 訓練多個模型 RF---bagging GDBT----boosting 模型融合相關內容 |
優勢:性能高、穩定性強、普遍應用於工業界 缺點:訓練時間長,調參是體力活 xgb、lightGBM是比較快的 |
同上 |
迴歸相關的模型 | SVM有三種核函數(linear/poly/rbf) | R^2/MAE/MSE/RMSE |