Transformer中16個注意力頭一定要比1個注意力頭效果好嗎?

點擊上方「AI公園」,關注公衆號,選擇加「星標「或「置頂」 作者:Paul Michel 編譯:ronghuaiyang 導讀 多頭注意力中的冗餘分析,看看是否可以在不影響性能的情況下做剪枝。 「Hercules Slaying the Hydra」, Sebald Beham, 1545 (source: Art Institute of Chicago) 自Vaswani等人提出transfo
相關文章
相關標籤/搜索