【李宏毅2020 ML/DL】P23 Transformer | Self-attention, Multi-head Self-attention

時間 2020-12-30

原文原文鏈接

我已經有兩年 ML 經歷，這系列課主要用來查缺補漏，會記錄一些細節的、自己不知道的東西。已經有人記了筆記（很用心，強烈推薦）：https://github.com/Sakura-gh/ML-notes 本節對應筆記：無本節內容綜述 Transformer是一種 Seq2seq model with 「Self-attention」，BERT就是基於這種技術；一般想到處理序列，我們首先想到的就