Python對中文字符的處理(utf-8/ gbk/ unicode)

如今在作分詞的時候會處理大量有關中文字符的處理,常常輸出亂碼,老大讓我暫時不考慮字符編碼,可是爲了看着爽不得不研究一下。python 分詞系統:NLPIR 程序員 由於不一樣的編譯環境默認的漢字編碼可能不同,個人環境是OSX10.11 + Pycharm + python2.7python2.7 文件第一行永遠默認ide # coding: utf-8 數據集我用的是「tc-corpus-trai
相關文章
相關標籤/搜索