Attention Is All You Need論文筆記

Attention Is All You Need 摘要 提出一種新的簡單的網絡結構,僅基於注意力機制 背景 1.循環模型在計算隱藏狀態ht時,使用了前面的ht-1和位置t,這種順序性使得模型無法實現並行計算 2.注意力機制允許對依賴項進行建模,忽略輸入或者輸出項的距離 3.自注意是一種注意力機制,能夠聯繫一個序列中的不同位置來計算序列表示 模型結構 1.encoder將輸入的符號表示序列map到
相關文章
相關標籤/搜索