Transformer解讀(論文 + PyTorch源碼)

Transformer模型早在2017年就出現了,當時實驗室的分享也有關於這個的。但我當時沒有意識到這篇論文的厲害之處,聽名字感受像是那種曇花一現的論文,也沒有關注它。直到最近出現了BERT這一神物以後,方纔後知後覺此時Transformer已然這麼有用!所以,這才仔仔細細地擼了這篇「古老」的論文和源碼,這裏將主要對照論文和相應的PyTorch源碼進行逐一對照解讀。因筆者能力有限,若有不詳實之處,
相關文章
相關標籤/搜索