The Sandwich Rule

目標:訓練一個可以直接以任意寬度運行的單一網絡。其實是在權重共享的條件下,我們可以根據不同的硬件設備挑選不同寬度的網絡,不再重訓練一個權重。 其中每個輸入通道或通道組可以被視爲輸出神經元的殘差分量。所以,更寬的網絡的性能不應該比其細小的網絡更差(小網絡的準確性可以使一個大網絡後面的連接爲0來實現)。換言之完全聚合的特徵 y n y^n yn和部分聚合的特徵 y k y^k yk的殘差 δ \del
相關文章
相關標籤/搜索