《A Mixture of h-1 Heads is Better than h Heads》論文筆記

1、摘要   多頭注意神經結構已經在各種自然語言處理任務上取得了最先進的結果。 事實證明,它們是過度參數化的,注意力頭可以被修剪而不會造成顯著的性能損失。 論文提出:根據輸入的不同,選擇不同的header,提出了專注其中幾個header的專家混合模型(MAE)。 MAE使用block coordinate descent (BCD:塊協同下降算法)進行訓練,該算法交替更新(1)選擇header的參
相關文章
相關標籤/搜索