論文閱讀:ByteNet, Neural Machine Translation in Linear Time

Neural Translation Model 給定源語言 string s , 通過網絡模型來估計目標語言string t 的概率分佈 p(t|s) 。   與PixelCNN類似, t 的聯合概率分佈可以通過鏈式法則轉化爲連續的 p(ti|t<i,s) 條件概率的乘積。 strings通常是各自語言中的句子,string中的每一個token則是字母(或者單詞)。 模型包括以下兩個部分:   
相關文章
相關標籤/搜索