《A Mixture of h-1 Heads is Better than h Heads》論文筆記

時間 2021-01-17

標籤 NLP 論文自然語言處理深度學習简体版

原文原文鏈接

1、摘要多頭注意神經結構已經在各種自然語言處理任務上取得了最先進的結果。事實證明，它們是過度參數化的，注意力頭可以被修剪而不會造成顯著的性能損失。論文提出：根據輸入的不同，選擇不同的header，提出了專注其中幾個header的專家混合模型(MAE)。 MAE使用block coordinate descent (BCD：塊協同下降算法)進行訓練，該算法交替更新(1)選擇header的參

>>阅读原文<<