Transformer中16個注意力頭一定要比1個注意力頭效果好嗎？

時間 2021-01-12

原文原文鏈接

點擊上方「AI公園」，關注公衆號，選擇加「星標「或「置頂」作者：Paul Michel 編譯：ronghuaiyang 導讀多頭注意力中的冗餘分析，看看是否可以在不影響性能的情況下做剪枝。「Hercules Slaying the Hydra」, Sebald Beham, 1545 (source: Art Institute of Chicago) 自Vaswani等人提出transfo

>>阅读原文<<