當不一樣類別的訓練樣本數目差異很大,則會對學習過程形成困擾。若有998個反例,但正例只有2個。函數
從線性分類器的角度討論,用\(y=w^Tx+b\)對新樣本\(x\)進行分類時,事實上是在用預測出的\(y\)值與一個閾值進行比較。如經過在\(y>0.5\)時判別爲正例,不然爲反例。概率\(\frac{y}{1-y}\)則反映了正例可能性與反例可能性之比值。閾值設爲0.5代表分類器認爲真實正、反例可能性相同。即
\[if\ \frac{y}{1-y}>1\ then\ is\ position\]
當訓練集中正、反例數目不一樣時,令\(m^{+}\)表示正例數目,\(m^-\)表示反例數目。假設訓練集是真實樣本整體的無偏採樣,分類器決策規則爲:
\[if\ \frac{y}{1-y}>\frac{m^+}{m^-}\ then\ is\ position\]
需對其預測值進行再縮放(rescaling):
\[\frac{y'}{1-y'}=\frac{y}{1-y}\times \frac{m^-}{m^+}\]
___學習
是logistic迴歸模型在多分類問題傷的推廣。測試
適用場景:MNIST手寫數字分類。優化
對於給定的測試輸入\(x\),用假設函數針對每個類別\(j\)估算出機率值\(p(y=j|x)\),即估計\(x\)的每一種分類結果出現的機率。所以,假設函數爲:
\[h_\theta(x^{(i)})=\begin{bmatrix} p(y^{(i)}=1|x^{(i)};\theta)\\ p(y^{(i)}=2|x^{(i)};\theta)\\ \vdots \\ p(y^{(i)}=k|x^{(i)};\theta) \end{bmatrix}=\frac{1}{\sum_{j=1}^k}\begin{bmatrix} e^{\theta_1^Tx^{(i)}}\\ e^{\theta_2^Tx^{(i)}}\\ \vdots\\ e^{\theta_k^Tx^{(i)}} \end{bmatrix}\]spa
在Softmax迴歸中,將\(x\)分類爲類別\(j\)的機率爲:
\[p(y^{(i)}=j|x^{(i)};\theta)=\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}\]開發
其代價函數爲:
\[J(\theta)=-\frac{1}{m}[\sum_{i=1}^m\sum_{j=0}^kI\{y^{(i)}=j\}log\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}]\]
其中,\(I\{\cdot\}\)是示性函數。it
對於\(J(\theta)\)的最小化問題,使用迭代的優化算法(梯度降低法、L-BFGS)。經求導,其梯度爲:
\[\triangledown _{\theta_j}J(\theta)=-\frac{1}{m}\sum_{i=1}^m[x^{(i)}(I\{y^{(i)}=j\}-p(y^{(i)}=j|x^{(i)};\theta))]\]
其中,\(\triangledown _{\theta_j}J(\theta)\)自己是一個向量,它的第\(l\)個元素\(\frac{\partial J(\theta)}{\partial \theta_{jl}}\)是\(J(\theta)\)對\(\theta_j\)的第\(l\)個份量的偏導數。io
每一次迭代,需進行以下的更新:
\[\theta_j:=\theta_j-\alpha \bigtriangledown _{\theta_j}J(\theta),\ \ \ j=1,\cdots,k\]
___class
衰減項會懲罰過大的參數值,代價函數爲:
\[J(\theta)=-\frac{1}{m}[\sum_{i=1}^m\sum_{j=0}^kI\{y^{(i)}=j\}log\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}]+\frac{\lambda}{2}\sum_{i=1}^k\sum_{j=0}^n\theta_{ij}^2\]
其中,\(\lambda>0\),此時代價函數變成嚴格的凸函數。使用優化算法,獲得新函數\(J(\theta)\)的導數:
\[\triangledown _{\theta_j}J(\theta)=-\frac{1}{m}\sum_{i=1}^m[x^{(i)}(I\{y^{(i)}=j\}-p(y^{(i)}=j|x^{(i)};\theta))]+\lambda \theta_j\]
經過最小化\(J(\theta)\),就能實現一個可用Softmax迴歸模型。
如開發一個音樂分類的應用,需對\(k\)種類型的音樂進行識別。根據類別之間是否互斥來進行選擇。
此時,每一個訓練樣本只會被打上一個標籤,應使用類別數\(k=4\)的Softmax迴歸。
此時,類別之間不是互斥的。使用4個二分類的logistic迴歸分類更爲合適。