NLP理論基礎和實踐(進階)-word2vec

語言模型 在統計自然語言處理中,語言模型指的是計算一個句子的概率模型。 傳統的語言模型中詞的表示是原始的、面向字符串的。兩個語義相似的詞的字符串可能完全不同,比如「番茄」和「西紅柿」。這給所有NLP任務都帶來了挑戰——字符串本身無法儲存語義信息。該挑戰突出表現在模型的平滑問題上:標註語料是有限的,而語言整體是無限的,傳統模型無法借力未標註的海量語料,只能靠人工設計平滑算法,而這些算法往往效果甚微。
相關文章
相關標籤/搜索