Transformer-XL解讀(論文 + PyTorch源碼)

前言 目前在NLP領域中,處理語言建模問題有兩種最早進的架構:RNN和Transformer。RNN按照序列順序逐個學習輸入的單詞或字符之間的關係,而Transformer則接收一整段序列,而後使用self-attention機制來學習它們之間的依賴關係。這兩種架構目前來看都取得了使人矚目的成就,但它們都侷限在捕捉長期依賴性上。html 爲了解決這一問題,CMU聯合Google Brain在201
相關文章
相關標籤/搜索