詞的向量表示

傳統的NLP,表示詞語一般是通過離散數據表示。One-Hot 這樣表示的問題這兩個向量是正交的,沒有辦法比較相似度。 怎麼辦?解決辦法:將其編碼成可以比較相似度的向量。 怎麼編碼呢? 我們知道語言的詞跟詞之間是有一定關聯性的,能不能利用這些關聯性設置我們的詞向量來編碼我們的詞語。 Word2Vec方法簡介: 他是一種訓練詞向量的一種框架。 我們有大量語料數據,其中每一個單詞在語料中編碼成一個向量。
相關文章
相關標籤/搜索