論文閱讀:Neural Machine Translation with Byte-Level Subwords

文章簡介: 基於字符,子詞,詞的機器翻譯幾乎都是以詞頻top-k數量建立的詞典;但是針對字符相對雜亂的日文和字符較豐富的中文,往往他們的罕見詞難以表示; 本文提出採用字節級別的字詞BBPE(byte-level BPE),不會出現oov的詞;比純用字節表示更方便,比只用字符表示又效果更好;當BBPE和BPE性能接近時,詞典size只是BPE的1/8; 主要方法: 整體思想是,把文本表示生字節級別的
相關文章
相關標籤/搜索