關於multi-head的一點思考

時間 2020-12-20

原文原文鏈接

Google於2017年提出了Transformer，而提出該模型的論文名爲《Attention is all you need》，之前翻譯該論文的時候並沒有太多注意attention，更多的放在了整體的模型結構上。最近面試了一個候選人，他介紹項目用到的AOA時，提到了從「橫向」和「縱向」兩個維度做softmax，突然讓我對Transformer中的multi-head attention有了新的

>>阅读原文<<