天然語言處理-使用Gensim庫構造中文維基百度數據詞向量模型

時間 2020-06-29

標籤天然語言處理使用 gensim 構造中文維基百度數據向量模型简体版

原文原文鏈接

文章目錄使用Gensim庫構造中文維基百度數據詞向量word2vec模型 1. 數據獲取 2.xml格式轉txt格式 process.py 在cmd中當前目錄執行命令： 3. 查看數據，轉換爲簡體數據格式(工具) 4. 文檔按行分詞保存成文件 TestJieba.py 5. 模型構建 word2vec_model.py 6. 測試文本類似度 testModel.py jupyter 進行跑代碼

>>阅读原文<<