【李宏毅2020 ML/DL】P23 Transformer | Self-attention, Multi-head Self-attention

我已經有兩年 ML 經歷,這系列課主要用來查缺補漏,會記錄一些細節的、自己不知道的東西。 已經有人記了筆記(很用心,強烈推薦):https://github.com/Sakura-gh/ML-notes 本節對應筆記:無 本節內容綜述 Transformer是一種 Seq2seq model with 「Self-attention」,BERT就是基於這種技術; 一般想到處理序列,我們首先想到的就
相關文章
相關標籤/搜索