【NLP】詞的表示方式

1.one-hot編碼

  • 給每個詞分配一個數字ID,如「爸爸」=1=[010],「媽媽」=2=[001]
  • 缺點(1)高維度,稀疏(2)詞之間相互獨立,無法表示詞之間的語義

2.分佈式表示
(1)基於矩陣的分佈表示

  • 詞的相似度轉換爲向量的空間距離
  • Global Vector模型

(2)基於聚類的分佈表示
(3)基於神經網絡的分佈表示----詞向量/詞嵌入

  • word embedding詞嵌入空間
    在這裏插入圖片描述 3.一般使用別人訓練好的詞向量,使用的語料庫領域相同的。