論文:Character-Level Language Modeling with Deeper Self-Attention

語言模型 語言模型通常用條件概率分佈進行表示: 爲了實現,使用causal attention將當前詞後面的詞mask掉。causal attention其實與transformer的decode部分中的masked attention是一樣的。如下圖所示: Multiple Positions 在論文中,訓練了一個64層的char-level的Transformer模型,因爲訓練一個深度的tra
相關文章
相關標籤/搜索