[論文筆記] [2005] Hierarchical Probabilistic Neural Network Language Model

這篇論文中提到的 Hierarchical Decomposition 就是後來在訓練 word2vec 模型時一個常見的技巧 Hierarchical Softmax [1]。所謂的 Hierarchical Decomposition,就是將原先用 softmax 做多分類分解成多個sigmoid,使得模型在輸出層的計算從 O ( ∣ V ∣ ) O(|V|) O(∣V∣) 降低到了 O (
相關文章
相關標籤/搜索