ccmt2019-0512-使用bpe+word2vec 進行語料的預處理

接下來就是使用bpe對語料進行編碼,以解決部分的登陸詞。python 首先,把全部的英文語料彙總起來放在同一個文件en.txt,把全部對應的中文平行語料也放在一塊兒獲得cn.txt。web 注意合併後須要檢查下這兩個文件各個句子之間是否對齊。app 而後使用subword-nmt工具進行bpe的編碼。svg __author__ = 'jmh081701' import os director
相關文章
相關標籤/搜索