模型評價html
要點一: 邏輯迴歸模型對樣本的預測取決於權值向量和偏置。svg
概念:函數
序號 | 概念 | 解釋 |
---|---|---|
1 | 訓練集 | 包含真實類別標籤的樣本集 |
2 | 訓練 | 根據訓練集尋找最優參數的過程 |
3 | 損失函數 | 是模型參數的函數,用於衡量模型參數的優劣 |
邏輯迴歸預測樣本x = (x1 ,x2, x3,……,xn)T 屬於正類的機率 P:post
測試
其中,w和b是模型的參數,訓練的過程就是尋找這兩個參數。spa
混淆矩陣.net
預測負類 | 預測正類 | |
---|---|---|
真實負類 | TN | FP |
真實正類 | FN | TP |
正確率htm
正確率的計算公式:blog
accuracy = ci
正確率是模型預測正確的樣本數與總樣本數之比。其並不老是可靠的,例如正例:負例=99:1,預測結果爲全 正,此時的正確率爲99%。
查準率:
又稱準確率(precision),公式以下:
(正類)
(負類)
由公式可知,正確預測正類樣本數量和預測正類樣本總數量之比。負類同。
查全率:
此公式意味着,預測爲正類的樣本數與所有正類樣本數之比。又稱真陽率(TPR,true positive rate)與之相對應的有假陽率(FPR,false positive rate):
ROC曲線
在邏輯迴歸中,假設咱們已經獲得了一組w與b,因此咱們能夠把測試集中的數據代入f(x)進行預測,代入函數後咱們獲得的是一個介於0和1之間的一個數,爲了實現預測,咱們須要一個閾值,咱們將f(x)大於閾值的測試數據視爲正類,不然爲負類。
因此閾值的選取將直接的影響到咱們的邏輯迴歸模型的好壞。
假陽率FPR與真陽率這對指標隨閾值變化同升同降。高TPR和低FPR是咱們但願的。
ROC曲線如圖
以FPR爲橫軸、TPR爲縱軸,將不一樣閾值對應的ROC曲線畫出來。ROC曲線上拱越高,說明在較低處的FPR處有更高的TPR。
ROC曲線下的面積,AUC(area under curve)能夠衡量模型的質量。
下一節將發佈損失函數的計算方法
後續還有梯度降低法求解邏輯迴歸,梯度降低法的改進等內容,屆時爲你們奉上手寫邏輯迴歸代碼
感謝關注