Learning Transferable Features with Deep Adaptation Networks

經典文章DAN               總函數:   上面的公式中,J函數是一組有標籤樣本的損失,dk2是第l層的mk-mmd距離。 總函數調整的參數是θ,應該是1-8層(1-3層是固定的,4-5是fine-tune,6-8層是learn) ???fine-tune、learn的區別 kernel parameter β是怎麼學習的? 本文的創新點: (參考:對於DAN方法的解讀-Learni
相關文章
相關標籤/搜索