Wiki中文語料處理-python

時間 2020-01-14

標籤 wiki 中文語料處理 python 欄目 Python 简体版

原文原文鏈接

昨天弄了一天的Wiki中文語料處理，發現有一點很重要，數據的完整性校驗。首先是最開始的壓縮文件，下載完後要檢驗是否完整的方法就是解壓是否可以成功，成功說明數據至少是完整的。接着是提取出來的txt文檔，首先在python環境下要注意文檔的編碼格式，UTF-8和GBK差異仍是有的。接着對於在python中打開文件的時候代碼 output = open(outp,'w',encoding="utf-8

>>阅读原文<<