[論文筆記] [2005] Hierarchical Probabilistic Neural Network Language Model

時間 2020-12-30

標籤 NLP 欄目系統網絡简体版

原文原文鏈接

這篇論文中提到的 Hierarchical Decomposition 就是後來在訓練 word2vec 模型時一個常見的技巧 Hierarchical Softmax [1]。所謂的 Hierarchical Decomposition，就是將原先用 softmax 做多分類分解成多個sigmoid，使得模型在輸出層的計算從 O ( ∣ V ∣ ) O(|V|) O(∣V∣) 降低到了 O (

>>阅读原文<<