關於multi-head的 一點思考

Google於2017年提出了Transformer,而提出該模型的論文名爲《Attention is all you need》,之前翻譯該論文的時候並沒有太多注意attention,更多的放在了整體的模型結構上。最近面試了一個候選人,他介紹項目用到的AOA時,提到了從「橫向」和「縱向」兩個維度做softmax,突然讓我對Transformer中的multi-head attention有了新的
相關文章
相關標籤/搜索