詞嵌入之Word2vec

one-hot向量的侷限性 假設詞典大小爲N(詞典中不同詞的數量),每個詞可以和從0到N−1的連續整數索引一一對應。使用one-hot方式來表示單詞時,詞向量維度大小爲整個詞彙表的大小,改詞索引位置爲1,其餘位置爲0,每個詞就表示成了一個長度爲N的向量,可以直接被神經網絡使用。雖然one-hot詞向量構造起來很容易,但有兩個缺點: 在語料庫過大時,詞彙表可能達到百萬級別,但向量只有一個位置是1,其
相關文章
相關標籤/搜索