用gensim函數庫訓練Word2Vec模型有不少配置參數。這裏對gensim文檔的Word2Vec函數的參數說明進行翻譯,以便不時之需。python
class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=None, sample=0.001,seed=1, workers=3,min_alpha=0.0001, sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=<built-in function hash>,iter=5,null_word=0, trim_rule=None, sorted_vocab=1, batch_words=10000)算法
參數:函數
· sentences:能夠是一個·ist,對於大語料集,建議使用BrownCorpus,Text8Corpus或·ineSentence構建。
· sg: 用於設置訓練算法,默認爲0,對應CBOW算法;sg=1則採用skip-gram算法。
· size:是指特徵向量的維度,默認爲100。大的size須要更多的訓練數據,可是效果會更好. 推薦值爲幾十到幾百。
· window:表示當前詞與預測詞在一個句子中的最大距離是多少
· alpha: 是學習速率
· seed:用於隨機數發生器。與初始化詞向量有關。
· min_count: 能夠對字典作截斷. 詞頻少於min_count次數的單詞會被丟棄掉, 默認值爲5
· max_vocab_size: 設置詞向量構建期間的RAM限制。若是全部獨立單詞個數超過這個,則就消除掉其中最不頻繁的一個。每一千萬個單詞須要大約1GB的RAM。設置成None則沒有限制。
· sample: 高頻詞彙的隨機降採樣的配置閾值,默認爲1e-3,範圍是(0,1e-5)
· workers參數控制訓練的並行數。
· hs: 若是爲1則會採用hierarchica·softmax技巧。若是設置爲0(defau·t),則negative sampling會被使用。
· negative: 若是>0,則會採用negativesamp·ing,用於設置多少個noise words
· cbow_mean: 若是爲0,則採用上下文詞向量的和,若是爲1(defau·t)則採用均值。只有使用CBOW的時候才起做用。
· hashfxn: hash函數來初始化權重。默認使用python的hash函數
· iter: 迭代次數,默認爲5
· trim_rule: 用於設置詞彙表的整理規則,指定那些單詞要留下,哪些要被刪除。能夠設置爲None(min_count會被使用)或者一個接受()並返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函數。
· sorted_vocab: 若是爲1(defau·t),則在分配word index 的時候會先對單詞基於頻率降序排序。
· batch_words:每一批的傳遞給線程的單詞的數量,默認爲10000學習