知識蒸餾:如何用一個神經網絡訓練另一個神經網絡

點擊上方「AI公園」,關注公衆號,選擇加「星標「或「置頂」 作者:Tivadar Danka 編譯:ronghuaiyang 導讀 知識蒸餾的簡單介紹,讓大家瞭解知識蒸餾背後的直覺。 如果你曾經用神經網絡來解決一個複雜的問題,你就會知道它們的尺寸可能非常巨大,包含數百萬個參數。例如著名的BERT模型約有1億1千萬參數。 爲了說明這一點,參見下圖中的NLP中最常見架構的參數數量。 各種模型結構的參數
相關文章
相關標籤/搜索