詞向量表示:word2vec與詞嵌入

  在NLP任務中,訓練數據一般是一句話(中文或英文),輸入序列數據的每一步是一個字母。我們需要對數據進行的預處理是:先對這些字母使用獨熱編碼再把它輸入到RNN中,如字母a表示爲(1, 0, 0, 0, …,0),字母b表示爲(0, 1, 0, 0, …, 0)。如果只考慮小寫字母a~z,那麼每一步輸入的向量的長度是26。如果一句話有1000個單詞,我們需要使用 (1000, ) 維度的獨熱編碼表
相關文章
相關標籤/搜索