一 前言
Word2Vec是同上一篇說起的PageRank同樣,都是Google的工程師和機器學習專家所提出的的;在學習這些算法、模型的時候,最好優先去看Google提出者的原汁Paper和Project,那樣帶來的啓發將更大。由於創造者對本身所創之物的瞭解程度優於這世上的絕大部分者,這句話,針對的是愛看博文的讀者,like me。
另外,補充幾句。
1.防止又被抄襲,故關鍵筆記以圖貼之。
2.標題前帶阿拉伯數字標號的內容,即是使用Gensim的Word2Vec模型過程當中的完整流程序號,一般也較爲經常使用且重要。
二 鳴謝
感謝以下文章/論文的詳細描述,它們亦是本文的主要測試依據,尤爲須要感謝最後四篇博文的精彩解說。python
三 Word2Vec 概要
重要API/類
- gensim.models.KeyedVectors
- gensim.models.word2vec
- gensim.models.word2vec.Word2Vec(sentences,min_count,size,worker)
- gensim.models.Word2Vec(sentences,min_count,size,worker)
Word2Vec類:構建Word2Vec詞向量模型
四 Word2Vec 詳解
- 注:標題前帶阿拉伯數字標號的內容,即是使用Gensim的Word2Vec模型過程當中的完整流程序號,一般也較爲經常使用且重要。
1 加載語料庫
2 (初次)訓練
手動構建詞彙表
3 追加訓練(更新模型)
4 存儲模型
5 加載模型
6 獲取詞向量
加載詞向量
7 模型應用
8 模型評估
五 補充