bpe分詞算法的原理

概述: bpe(byte pair encoding),是一種根據字節對進行編碼的算法。主要目的是爲了數據壓縮,算法描述爲字符串裏頻率最常見的一對字符被一個沒有在這個字符中出現的字符代替的層層迭代過程。該算法在論文:https://arxiv.org/abs/1508.07909 Neural Machine Translation of Rare Words with Subword Units
相關文章
相關標籤/搜索