論文：Character-Level Language Modeling with Deeper Self-Attention

時間 2021-01-02

標籤自然語言處理简体版

原文原文鏈接

語言模型語言模型通常用條件概率分佈進行表示：爲了實現，使用causal attention將當前詞後面的詞mask掉。causal attention其實與transformer的decode部分中的masked attention是一樣的。如下圖所示： Multiple Positions 在論文中，訓練了一個64層的char-level的Transformer模型，因爲訓練一個深度的tra

>>阅读原文<<