DeepLDA 並非把LDA模型整合到了Deep Network,而是利用LDA來指導模型的訓練。從實驗結果來看,使用DeepLDA模型最後投影的特徵也是很discriminative 的,可是很遺憾沒有看到論文是否驗證了topmost 的hidden representation 是否也和softmax指導產生的representation同樣的discriminative。網絡
DeepLDA和通常的deep network惟一不一樣是它的loss function。二者對好比下:app
對於LDA,優化的目標是最小化類內方差,同時最大化類間方差。因爲LDA是一個有監督的模型,對於多分類的狀況如個類,則最終投影的一個子空間的維數只有。多分類狀況LDA優化的目標公式爲,優化
其中A就是投影矩陣。是between scatter matrix,能夠理解爲類中心間的方差;而定義爲within scatter matrix,能夠理解爲類內協方差的和。它們的計算公式以下:spa
這裏,咱們已經假設全部的樣本都是去中心化的了。最後問題變成了一個泛化的特徵方程求解的問題,矩陣A對應着相應的特徵向量。blog
事實上,特徵向量指示着投影最大方差的方向,特徵值則是對特徵向量重要程度的一個量化。而論文的一個insight就是,但願能夠指導網絡生成topmost的representation可以在各個方向都產生較大的特徵值,即不但願投影的方向在某個方向更方差會更大,由於這表明了信息量的多少。論文提出一種直接把特徵值做爲loss function的方法,由於訓練的時候,網絡傾向於優化最大的特徵值,產生一個trivial的結果,即便得大的特徵值會傾向於更大而犧牲其餘小的特徵值。所以論文定義loss function在小的特徵值上:it
特徵值的求解是創建在topmost的representation的基礎上的。模型的訓練使用mini-batch的隨機梯度降低法,而特徵值能夠直接對representation 進行求導:io
論文的appendix能夠看到完整的求導過程。function
最後,論文的實驗室經過對project後的特徵進行分類,因此比較的是分類的精度,以及test error。並且,實驗的結果還挺competitive的。test