Word2Vec------skip-gram、CBOW、負採樣、的一些理解

1.Window based Co-occurrence Matrix 簡單來說就是統計語料庫中,在確定window長度的情況下,統計word的出現頻率,基於詞頻得到關聯矩陣,例如: 然後,利用SVD奇異值分解,變成K維,每一row就剛好是每個詞word embedding的大小。但是這種方法有很多缺點,緯度高、矩陣稀疏、cost較大等。 2. continuous bag-of-words (C
相關文章
相關標籤/搜索