使用維基百科訓練簡體中文詞向量

時間 2019-11-05

標籤使用維基百科訓練簡體文詞向量简体版

原文原文鏈接

使用維基百科訓練簡體中文詞向量 php

最近須要訓練簡體中文的詞向量，而中文大規模語料獲取並無像英文那樣方便。搜狗語料庫（http://www.sogou.com/labs/resource/list_yuliao.php）是可以免費獲取的比較大的中文新聞語料庫。可是最新的也就是更新到2012年的語料，後續並無放出更新的語料。除了搜狗語料，要獲取其餘領域相關的中文語料，可能就須要本身動手寫個爬蟲去相關網站上爬取。後面經過檢索，發現你們經過免費的中文維基百科來進行詞向量的訓練，因而我也下載處理了最新的維基語料，使用word2vec工具進行了中文詞向量的訓練。git

1 下載中文維基百科。github

wiki語料庫下載網址：工具

https://dumps.wikimedia.org/測試

最近的中文wiki語料：網站

https://dumps.wikimedia.org/zhwiki/latest/spa

其中zhwiki-latest-pages-articles.xml.bz2文件包含了標題、正文部分。壓縮包大概是1.3G，解壓後大概是5.7G。相比英文wiki中文的仍是小了很多。命令行

2 抽取wiki正文內容xml

下載下來的wiki是XML格式，須要提取其正文內容。不過維基百科的文檔解析有很多的成熟工具（例如gensim，wikipedia extractor等），我直接使用開源工具wikipedia extractor完成正文的提取。blog

Wikipedia extractor的網址爲: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor

Wikipedia Extractor 是一個簡單方便的Python腳本，下載好WikiExtractor.py後直接使用下面的命令運行便可。

WikiExtractor.py -cb 1200M -o extracted zhwiki-latest-pages-articles.xml.bz2

-cb 1200M表示以 1200M 爲單位切分文件，-o 後面接出入文件，最後是輸入文件。