使用word2vec訓練wiki中文語料

實驗環境:Ubuntu + eclipse + python3.5python 首先(1)下載最新中文wiki語料庫:正則表達式 wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2eclipse (2)因爲下載以後,語料庫上的編碼格式會有不一樣,所以須要進行處理一下:借鑑了這篇文章。
相關文章
相關標籤/搜索