JavaShuo
【NLP】詞的表示方式
時間 2020-12-30
1.one-hot編碼
給每個詞分配一個數字ID,如「爸爸」=1=[010],「媽媽」=2=[001]
缺點(1)高維度,稀疏(2)詞之間相互獨立,無法表示詞之間的語義
2.分佈式表示
(1)基於矩陣的分佈表示
詞的相似度轉換爲向量的空間距離
Global Vector模型
(2)基於聚類的分佈表示
(3)基於神經網絡的分佈表示----詞向量/詞嵌入
word embedding詞嵌入空間
3.一般使用別人訓練好的詞向量,使用的語料庫領域相同的。