wiki數據處理

1.在https://dumps.wikimedia.org/zhwiki/20190501/下載數據,數據包的名字爲: zhwiki-20190501-pages-articles.xml.bz2 1.6g, 2.對數據進行預處理,下載好後不需要解壓縮 (1)數據爲xml格式,編寫腳本進行處理,這裏給出一個腳本處理文件。 ps: 注意輸出格式encoding=‘utf8’, mode=‘w’ h
相關文章
相關標籤/搜索