Attention Is All You Need

一、序言       自從Attention機制在提出之後,加入Attention的Seq2Seq模型在各個任務中都有了提升,所以現在的seq2seq模型指的都是結合RNN和Attention的模型。傳統的基於RNN的Seq2Seq模型難以處理長序列的句子,無法實現並行,並且面臨對齊的問題。所以,之後這類模型的發展多數從三個方面入手: ①input的方向性:單向-->雙向 ②深度:單層-->多層
相關文章
相關標籤/搜索