使用word2vec訓練中文詞向量

訓練過程 模型:gensim工具包word2vec模型,安裝使用簡單,訓練速度快 語料:百度百科500萬詞條+維基百科30萬詞條+1.1萬條領域數據 分詞:jieba分詞,自定義詞典加入行業詞,去除停用詞 硬件:8核16g虛擬機 數據預處理python 維基百科數據量不夠大,百度百科數據量較全面,內容上面百度百科大陸相關的信息比較全面,港澳臺和國外相關信息維基百科的內容比較詳細,所以訓練時將兩個語
相關文章
相關標籤/搜索