詳解Transformer （Attention Is All You Need）

時間 2021-07-14

原文原文鏈接

前言注意力（Attention）機制[2]由Bengio團隊與2014年提出並在近年廣泛的應用在深度學習中的各個領域，例如在計算機視覺方向用於捕捉圖像上的感受野，或者NLP中用於定位關鍵token或者特徵。谷歌團隊近期提出的用於生成詞向量的BERT[3]算法在NLP的11項任務中取得了效果的大幅提升，堪稱2018年深度學習領域最振奮人心的消息。而BERT算法的最重要的部分便是本文中提出的Tran

>>阅读原文<<