深度學習筆記(32):word2vec模型簡介

前因 與使用ASCII或者其他編碼方式編碼的字符能表達萬物,但是對於nlp來講,處理的最小單元是詞彙而不是字符。所以我們必須建立一個字典集合,將所有的出現的詞彙放到其中,然後將他們映射成onehot,但是這麼做的話,每個單詞的維度都是字典集合的大小那麼大,而且一堆零一個一純粹是簡單的先後順序問題,並沒有什麼語義上的實際意義。所以我們需要做若干件事:降維,信息量增大。 要做到這兩點,一個直觀的想法就
相關文章
相關標籤/搜索