wiki中文語料+word2vec (python3.5 windows win7)

時間 2019-11-18

標籤 wiki 中文語料 word2vec word vec python3.5 python windows win7 win 欄目 Microsoft Office 简体版

原文原文鏈接

環境： win7+python3.5

1. 下載wiki中文分詞語料 使用迅雷下載會快很多，大小爲1個多Gnode

2. 安裝opencc用於中文的簡繁替換

安裝exe的版本

並解壓放置到自定義的目錄下python

也可安裝 python版本的：

pip install opencc-python

安裝時會報錯：

報錯一： ImportError: No module named distribute_setup

解決方法，到 http://www.minitw.com/download/distribute_setup.zip 下載ZIP，解壓後將.py文件放置到電腦的分盤:\你安裝Python的目錄\Lib(例如：C:\Python35\Lib)

報錯二：chown() missing 1 required positional argument: 'numeric_owner'

到distribute_setup.py中，找到self.chown(tarinfo, dirpath)，改成 chown(tarinfo, dirpath, '');

報錯三： import opencc時，報錯 no module named 'version'

將opencc的__init__.py 中的 from version import __version__改成 from .version import __version__

3. 將wiki的資料轉爲文本txt

python process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.text

解壓後獲得925M的文件，因爲wiki中的東西是會按期更新的，因此不一樣時間下載獲得的大小不同

process_wiki.py 源碼以下：

注：網上的版本大可能是針對python2的，使用python3進行解壓會在 output.write(space.join(text) + "\n")這一句出現提示關於byte或str的錯誤，因此須要有以下修改：

for text in wiki.get_texts():
    s=space.join(text)
    s=s.decode('utf8') + "\n"
output.write(s)

4. 繁簡轉化

進入解壓後的opencc的目錄，打開dos窗口，輸入

opencc -i wiki.zh.text -o wiki.zh.jian.text -c t2s.json

則會獲得 wiki.zh.jian.text，裏面是簡體的中文

此時，你們會比較好奇，裏邊裝着的究竟是什麼東西~

因爲解壓後的txt有900多M大，用txt打開比較困難，因此咱們採用python自帶的IO進行讀取

打印的結果以下，能夠看出文檔中包含多幹行文字，每一行文字爲一篇文章，每個空格表示此處原爲一個標點符號

簡體的打印結果以下：

5. 分詞

由第四步獲得語料僅由標點隔開，還需將其分割成詞

此處使用結巴分詞 pip install jieba 便可安裝

結巴的具體介紹見： https://github.com/fxsjy/jieba

因爲編碼的緣由，此處使用了codecs

分詞後的文檔長這個樣子：

6. 訓練word2vec模型

python train_word2vec_model.py zh.jian.wiki.seg.txt wiki.zh.text.model wiki.zh.text.vector

train_word2vec_model . py源碼以下：

import logging
import os.path
import sys
import multiprocessing
from gensim.corpora importWikiCorpus
from gensim.models importWord2Vec
from gensim.models.word2vec importLineSentence
if __name__ =='__main__':
program = os.path.basename(sys.argv[0])
logger = logging.getLogger(program)
logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')
logging.root.setLevel(level=logging.INFO)
logger.info("running %s"%' '.join(sys.argv))
# check and process input arguments
if len(sys.argv)<4:
print(globals()['__doc__']% locals())
sys.exit(1)
inp, outp1, outp2 = sys.argv[1:4]
model =Word2Vec(LineSentence(inp), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count())
model.save(outp1)
model.save_word2vec_format(outp2, binary=False)