self-attention原理詳解

該博客講解的極其清晰,強烈推薦 https://jalammar.github.io/illustrated-transformer/ 以下內容源於此博客(轉載翻譯分享) 1、讓我們首先將模型看作一個黑盒子。在機器翻譯應用程序中,它將使用一種語言的句子,並將其翻譯輸出到另一種語言中。 2、打開黑盒子,我們看到了編碼組件,解碼組件以及它們之間的連接。 編碼組件是一堆編碼器(圖中由6個編碼器組成,數量
相關文章
相關標籤/搜索