使用word2vec訓練中文詞向量

時間 2019-12-06

標籤使用 word2vec word vec 訓練文詞向量欄目 Microsoft Office 简体版

原文原文鏈接

訓練過程模型：gensim工具包word2vec模型，安裝使用簡單，訓練速度快語料：百度百科500萬詞條+維基百科30萬詞條+1.1萬條領域數據分詞：jieba分詞,自定義詞典加入行業詞,去除停用詞硬件：8核16g虛擬機數據預處理python 維基百科數據量不夠大，百度百科數據量較全面，內容上面百度百科大陸相關的信息比較全面，港澳臺和國外相關信息維基百科的內容比較詳細，所以訓練時將兩個語

>>阅读原文<<