python 提取sogou中文語料庫

sogou中文語料庫下載地址是:https://download.csdn.net/download/kinas2u/1277550 下載下來的文件包含了很多子文件夾,每個子文件夾下又包含了很多txt語料文件,我想把他們都整合到一個txt中(./SogouC_mini_20061102/Sample),並且輸出的是已經分好詞的txt文件 下面是處理程序 # -*- coding: utf-8 -*
相關文章
相關標籤/搜索