基於深度self-attention的字符集語言模型(transformer)論文筆記

論文題目:Character-Level Language Modeling with Deeper Self-Attentiongit 論文地址:https://arxiv.org/abs/1808.04444v1github 摘要       LSTM和其餘RNN的變體在字符級別的語言建模方面取得了很好的成功。這些模型通常狀況下都會使用反向傳播來進行訓練,並一般把這些模型的成功歸結與RNN結構
相關文章
相關標籤/搜索