Subword三大算法

Subword三大算法 一、 概述 SubWord算法如今已成爲一個重要的NLP模型的提升算法。其主要優勢如下: 傳統詞表示方法無法很好地處理未知和罕見詞彙 傳統的tokenization不利於模型學習詞綴之間的關係 Character embedding作爲OOV的解決方案粒度太細 Subword粒度在詞與字符之間,能很好地平衡OOV問題 二、 BPE 優缺點 優點:可以有效平衡詞彙表大小和步數
相關文章
相關標籤/搜索