因此,爲了獲得泛化偏差小的模型,在構建機器模型時,一般將數據集拆分爲相互獨立的訓練數據集、驗證數據集和測試數據集等,而在訓練過程當中使用驗證數據集來評估模型並據此更新超參數,訓練結束後使用測試數據集評估訓練好的最終模型的性能。算法
偏差矩陣 | 預測正值 | 預測負值 |
---|---|---|
真實正值 | TP | FN |
真實負值 | FP | TN |
指標 | 描述 | Scikit-learn函數 |
---|---|---|
Confusion Matrix | 混淆矩陣 | from sklearn.metrics import confusion_matrix |
Precision | 精確率 | from sklearn.metrics import precision_score |
Recall | 召回率 | from sklearn.metrics import recall_score |
F1 | F1值 | from sklearn.metrics import f1_score |
ROC | ROC曲線 | from sklearn.metrics import roc |
AUC | ROC曲線下的面積 | from sklearn.metrics import auc |
其中,\(\hat{y_i}\)是預測值,\(\bar{y_i}\)是預測值的平均值。\(R^2<=1\)且越大越好。機器學習
指標 | 描述 | Scikit-learn函數 |
---|---|---|
Mean Square Error (MSE, RMSE) | 平均方差 | from sklearn.metrics import mean_squared_error |
Absolute Error (MAE, RAE) | 絕對偏差 | from sklearn.metrics import mean_absolute_error, median_absolute_error |
R-Squared | R平方值 | from sklearn.metrics import r2_score |