NLP中基本概念入門

詞向量(Word Embedding)   詞向量主要用於將自然語言中的詞符號數學化,這樣才能作爲機器學習問題的輸入。   數學化表示詞的方式很多,最簡單的有獨熱編碼,即「足球」=[0,0,1,0,0,0,0,…],「籃球」=[0,0,0,0,0,1,0,…],向量的長度爲總詞數。顯然,獨熱編碼有以下缺點:1.可能導致維數過大,對深度學習來說複雜度過高。2.兩個詞的相似程度無法表示。   詞向量與
相關文章
相關標籤/搜索