中文文檔預處理

最近作個東西,須要對中文文檔進行預處理。python

首先是統一編碼和刪除標點符號等操做,用ULTRAEDIT和EDITPLUS能夠分別很快的作到這一點。UITRAEDIT的替換裏能夠對一個文件夾目錄的全部文件同時替換,能夠用來批處理。框架

而後是分句和分詞,分句通常是在去標點符號前(標點符號能夠用停用表去),通常是用句號進行分句。分詞我用的是現成的庫,jieba分詞,對中文的支持比較好。並且它能夠用自定義詞典限制分詞的結構。編碼

固然須要進行批處理的話最好本身弄個python腳本。jieba好像有個依賴庫我給忘了。文檔

而後是去停用詞。分詞之後去停用詞就很簡單了,本身寫個腳本。可是停用詞庫若是有特殊需求的話最好仍是本身造一個,若是隻是通用的停用詞的話網上隨便一搜都是。im

去完了預處理大概就差很少了,若是是跟語義有關係的話最好用一個淺層的work2vec實現對詞義的向量化。(在有大量訓練集的前提下)python裏面有一個支持它的框架叫gensim。腳本

over文件

相關文章
相關標籤/搜索