天然語言處理詞向量模型-word2vec

天然語言處理與深度學習:

語言模型:

N-gram模型:

 

N-Gram模型:在天然語言裏有一個模型叫作n-gram,表示文字或語言中的n個連續的單詞組成序列。在進行天然語言分析時,使用n-gram或者尋找經常使用詞組,能夠很容易的把一句話分解成若干個文字片斷網絡

詞向量:

神經網絡模型:

注:初始化向量,能夠先隨機初始化。學習

傳統神經神經網絡只須要優化輸入層與隱層,隱層與輸出層之間的參數。優化

 

 

神經網絡模型的優點:一方面能夠獲得詞語之間近似的含義,另外一方面求解出的空間符合真實邏輯規律編碼

CBOW求解目標:

預備知識:.net

樹的帶權路徑長度規定爲全部葉子結點的帶權路徑長度之和,記爲WPL。設計

分層的softmax設計思想:詞頻中出現詞機率高的儘量往前放,能夠用哈夫曼樹來設計。3d

天然語言哈夫曼樹詳解,包含構造和編碼:https://blog.csdn.net/shuangde800/article/details/7341289blog

Hierarchical Softmax是用哈夫曼樹構造出不少個二分類。深度學習

 

 

負採樣模型:

相關文章
相關標籤/搜索