Subword模型

之前的Neural Machine Translation基本上都是基於word單詞作爲基本單位的,但是其缺點是不能很好的解決out-of-vocabulary(OOV即單詞不在詞彙庫裏)的情況,且對於單詞的一些詞法上的修飾(morphology)處理的也不是很好。中文是不帶空格分隔的。一個自然的想法就是能夠利用比word更基本的組成來建立模型,以更好的解決這些問題。 OOV(未登錄詞) 網絡流行
相關文章
相關標籤/搜索