NLP中基本概念入門

詞向量(Word Embedding)   詞向量主要用於將天然語言中的詞符號數學化,這樣才能做爲機器學習問題的輸入。web   數學化表示詞的方式不少,最簡單的有獨熱編碼,即「足球」=[0,0,1,0,0,0,0,…],「籃球」=[0,0,0,0,0,1,0,…],向量的長度爲總詞數。顯然,獨熱編碼有如下缺點:1.可能致使維數過大,對深度學習來講複雜度太高。2.兩個詞的類似程度沒法表示。機器學習
相關文章
相關標籤/搜索