機器翻譯模型簡介(三)

本系列將記錄一些最近的機器翻譯模型,作爲筆記,以備日後查看。 3、Attention Is All You Need       本文提出一個新的網絡結構transfomer,不採用卷積與循環神經網絡,僅僅依賴於注意力機制。對於循環神經網絡由於其序列輸入特性,導致難以並行。而卷積網絡可以捕獲任意位置的信息,導致隨着距離的增大,也越難學習長距離的依賴關係。本文提出一種自注意機制的端到端網絡。結構如下
相關文章
相關標籤/搜索