wiki中文語料下載及繁體轉簡體的處理。

wiki中文語料下載地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 下載後是xml的文件,需要轉換爲中文的txt文件,網上又很多處理的python代碼。 #!/usr/bin/env python # -*- coding: utf-8 -*- #將xml的wiki數據轉換爲tex
相關文章
相關標籤/搜索