Python對中文字符的處理(utf-8/ gbk/ unicode)

時間 2019-12-12

標籤 python 中文字符處理 utf gbk unicode 欄目 Python 简体版

原文原文鏈接

如今在作分詞的時候會處理大量有關中文字符的處理，常常輸出亂碼，老大讓我暫時不考慮字符編碼，可是爲了看着爽不得不研究一下。python 分詞系統：NLPIR 程序員由於不一樣的編譯環境默認的漢字編碼可能不同，個人環境是OSX10.11 + Pycharm + python2.7python2.7 文件第一行永遠默認ide # coding: utf-8 數據集我用的是「tc-corpus-trai

>>阅读原文<<