論文連接:https://arxiv.org/pdf/1301.3781.pdfhtml
參考:分佈式
A Neural Probabilistic Language Model (2003)論文要點 http://www.javashuo.com/article/p-entuqhuq-gt.html學習
- 線性規律linear regularities: "king - man = queen - woman"編碼
- 語法和語義規律syntactic and semantic regularitieshtm
1986年Hinton等人提出分佈式表示。blog
典型的訓練:token
3-50輪,十億級別樣本,滑動窗口寬度N=10,向量維度D=50-200,隱層寬度H=500-1000,詞典維度|V|=10^6ip
複雜度主要取決於隱層到輸出層,即H*|V|get
hierarchical softmax,輸出層Huffman編碼,計算複雜度|V| -> log|V|it
考慮去掉隱層。
兩種方式CBOW和Skip-gram
更多數據,更高維向量:
Google News:60億tokens,100萬經常使用詞,3萬極經常使用詞
3輪迭代,學習率0.025且隨時間衰減。