Wiki中文語料處理-python

昨天弄了一天的Wiki中文語料處理,發現有一點很重要,數據的完整性校驗。 首先是最開始的壓縮文件,下載完後要檢驗是否完整的方法就是解壓是否可以成功,成功說明數據至少是完整的。接着是提取出來的txt文檔,首先在python環境下要注意文檔的編碼格式,UTF-8和GBK差異仍是有的。接着對於在python中打開文件的時候代碼 output = open(outp,'w',encoding="utf-8
相關文章
相關標籤/搜索