NLP理論基礎和實踐（進階）-word2vec

時間 2020-12-23

原文原文鏈接

語言模型在統計自然語言處理中，語言模型指的是計算一個句子的概率模型。傳統的語言模型中詞的表示是原始的、面向字符串的。兩個語義相似的詞的字符串可能完全不同，比如「番茄」和「西紅柿」。這給所有NLP任務都帶來了挑戰——字符串本身無法儲存語義信息。該挑戰突出表現在模型的平滑問題上：標註語料是有限的，而語言整體是無限的，傳統模型無法借力未標註的海量語料，只能靠人工設計平滑算法，而這些算法往往效果甚微。