word2vec中的Negative sampling 和 Subsampling

神經概率語言模型 通過一個Fake task去得到詞向量 這個fake task 更像是用作一個word 的前 n−1 n − 1 個詞的詞向量去做特徵,來預測這個word出現的概率。 而中間的U就是所有詞向量的矩陣。 但是,問題在於,訓練之前的詞向量如何得到? 這個是可以用one-hot來初始化的( 爲什麼要用one-hot? 因爲這個可以作爲隱藏層的look-up vector (這個解釋可以
相關文章
相關標籤/搜索