斯坦福大學-自然語言處理與深度學習(CS224n) 筆記 第三課 詞向量(2)

一、word2vec 1、回顧:skip-grams word2vec的主要步驟是遍歷整個語料庫,利用每個窗口的中心詞來預測上下文的單詞,然後對每個這樣的窗口利用SGD來進行參數的更新。 對於每一個窗口而言,我們只有2m+1個單詞(其中m表示窗口的半徑),因此我們計算出來的梯度向量是十分稀疏的。對於2dv的參數而言,我們只能更新一小部分。因此一個解決方法是提供一個單詞到詞向量的哈希映射。 2、負採
相關文章
相關標籤/搜索