詞向量表示：word2vec與詞嵌入

時間 2020-12-23

原文原文鏈接

　　在NLP任務中，訓練數據一般是一句話（中文或英文），輸入序列數據的每一步是一個字母。我們需要對數據進行的預處理是：先對這些字母使用獨熱編碼再把它輸入到RNN中，如字母a表示爲(1, 0, 0, 0, …,0)，字母b表示爲(0, 1, 0, 0, …, 0)。如果只考慮小寫字母a~z，那麼每一步輸入的向量的長度是26。如果一句話有1000個單詞，我們需要使用 (1000, ) 維度的獨熱編碼表

>>阅读原文<<