Dynamic Few-Shot Visual Learning without Forgetting

摘要：人類能從少許樣本中學習新的概念且不會忘記之前的類別，爲實現這一目標，做者提出：一、擴展一個具備註意力的目標識別系統，這種注意力來源於少樣本分類權重生成器；二、從新設計卷積網絡模型的分類器，做爲特徵表示和分類器權重向量之間的餘弦類似函數。除了統一對新類和舊類的識別外，還能對新類進行更好歸納的特徵表示。實驗結果顯示該方法不犧牲舊類的準確率。同時這裏用到了最新few-shot樣本集，Bharath and Girshick。算法

一、介紹網絡

　　卷積網絡的三大問題：一、手動收集樣本多；二、計算量大；三、類別固定。現有Few-shot算法問題：一、新類別的學習須要快速；二、不能犧牲初始類別的精度。框架

　　基於注意力的少樣本分類權重生成器。典型的卷積網絡提取一個高水平特徵表示，而後對特徵應用一組類別權重向量（每類一個）。爲了識別新類，必須構造新的分類權重向量，稱爲少樣本分類權重生成器。它經過在基本類別的分類權重向量上引入注意力機制，利用已經得到的視覺知識，提升新類別的識別性能，即使只有一個訓練樣本可供學習。函數

　　基於餘弦類似度的卷積網絡識別模型。基於點積的分類器沒法靈活處理舊類和新類的分類權重向量。這裏引入特徵表示和分類權重向量之間的餘弦類似度函數，在新類上有更好的泛化性能。性能

二、相關工做學習

　　元學習，一些表明性工做，這裏將少樣本分類權重生成器做爲元學習的一個組件。測試

　　度量學習metric learning，度量學習方法學習保持類近鄰的結構的特徵表示，即同類目標的特徵比異類特徵更接近。Prototypical Networks經過計算新類特徵向量的距離分類測試樣本，提出學習一個新類的特徵向量做爲該類測試樣本中提取的特徵向量的平均值。本文的少樣本分類權重生成器也包含了一個特徵平均機制，並使用注意力機制利用過去視覺知識，且框架容許新類和舊類的統一識別。設計

　　此外，Bharath和Girshick建議在訓練L2正則化損失時使用特徵表示，使他們更好的泛化不可見類別。在這裏基於餘弦類似度的分類器，除了統一新類和舊類外，還能產生更好的泛化不可見類的特徵表示。另外，不少方法對分類器進行新樣本和舊樣本的再訓練，這一般比較慢，且須要維護大量數據。blog

三、方法class

　　主要改動爲：一、基於卷積網絡的識別模型；二、少樣本類別權重生成器。

　　在初始樣本訓練過程學到特徵提取器F，能夠獲得特徵表示，與每一個類的權重向量結合能夠獲得評分，最高分爲分類結果。這裏原始類的權重向量由大量樣本訓練獲得，而新的樣本由分類權重生成器G獲得，二者產生的點積尺寸可能大爲不一樣。爲避免這一問題，做者採用cosine類似度函數代替點積，先對w和z進行L2規範化，再計算cosine值，並取消了最後一層的ReLU操做。

　　使用t-sne可視化後發現cos比點積有更好的聚攏可分辨效果。

　　對於權重生成器G，其輸入是新類的特徵表示、舊類的權重向量，內部參數Φ在大量初始數據中訓練獲得，能夠認爲這裏是一個元學習部件。G的具體形式構建，做者認爲cosine類似促使特徵生成器學習到緊湊的特徵向量，且促使分類權重向量學到這些聚類中最優表明性的特徵向量，因此一個最簡單的方式是計算特徵向量的平均值。但少許樣本會形成極大偏差，且沒有用到初始樣本及類的知識。這裏做者引入了注意力機制。

　　做者認爲類似的類應該有類似的權重向量，因此新類的權重向量能夠表示爲類似類權重向量的線性組合，將兩部分合在一塊兒：

　　訓練分爲兩部分：一、學習一個網絡能獲得好的特徵抽取，並計算初始類權重；二、經過初始類權重和大量樣本計算G中的參數Φ。