機器學習:gensim之Word2Vec 詳解

一 前言

Word2Vec是同上一篇說起的PageRank同樣,都是Google的工程師和機器學習專家所提出的的;在學習這些算法、模型的時候,最好優先去看Google提出者的原汁Paper和Project,那樣帶來的啓發將更大。由於創造者對本身所創之物的瞭解程度優於這世上的絕大部分者,這句話,針對的是愛看博文的讀者,like me。
另外,補充幾句。    
1.防止又被抄襲,故關鍵筆記以圖貼之。
2.標題前帶阿拉伯數字標號的內容,即是使用Gensim的Word2Vec模型過程當中的完整流程序號,一般也較爲經常使用且重要。

二 鳴謝

感謝以下文章/論文的詳細描述,它們亦是本文的主要測試依據,尤爲須要感謝最後四篇博文的精彩解說。python

三 Word2Vec 概要

重要API/類

  • gensim.models.KeyedVectors
  • gensim.models.word2vec
    • gensim.models.word2vec.Word2Vec(sentences,min_count,size,worker)
  • gensim.models.Word2Vec(sentences,min_count,size,worker)

Word2Vec類:構建Word2Vec詞向量模型

四 Word2Vec 詳解

  • 注:標題前帶阿拉伯數字標號的內容,即是使用Gensim的Word2Vec模型過程當中的完整流程序號,一般也較爲經常使用且重要。

1 加載語料庫

2 (初次)訓練

手動構建詞彙表

3 追加訓練(更新模型)

4 存儲模型

5 加載模型

6 獲取詞向量

加載詞向量

7 模型應用

8 模型評估

五 補充

  • 歡迎探討,歡迎Follow~
相關文章
相關標籤/搜索