中文文檔預處理

時間 2019-11-21

標籤中文文檔預處理简体版

原文原文鏈接

最近作個東西，須要對中文文檔進行預處理。python

首先是統一編碼和刪除標點符號等操做，用ULTRAEDIT和EDITPLUS能夠分別很快的作到這一點。UITRAEDIT的替換裏能夠對一個文件夾目錄的全部文件同時替換，能夠用來批處理。框架

而後是分句和分詞，分句通常是在去標點符號前（標點符號能夠用停用表去），通常是用句號進行分句。分詞我用的是現成的庫，jieba分詞，對中文的支持比較好。並且它能夠用自定義詞典限制分詞的結構。編碼

固然須要進行批處理的話最好本身弄個python腳本。jieba好像有個依賴庫我給忘了。文檔

而後是去停用詞。分詞之後去停用詞就很簡單了，本身寫個腳本。可是停用詞庫若是有特殊需求的話最好仍是本身造一個，若是隻是通用的停用詞的話網上隨便一搜都是。im

去完了預處理大概就差很少了，若是是跟語義有關係的話最好用一個淺層的work2vec實現對詞義的向量化。（在有大量訓練集的前提下）python裏面有一個支持它的框架叫gensim。腳本

over文件

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。