Python正則匹配中文與編碼總結

###字符串的編碼亂碼問題由來已久,真的是使人頭疼。這不是在作正則匹配中文時候,編碼又一次成了攔路虎,在這兒記錄兩點。第一,字符串編碼。第二,正則匹配中文。html 早期編碼都用ASCII編碼,用一個字節來處理編碼。如大寫A編碼爲65,但處理中文時候,一個字節顯然不夠,至少兩哥字節,還不能和ASCII衝突,,中國製定GB2312編碼,把中文編進去。 相似的,韓國,日本都出來格子標準,結果就是多語言
相關文章
相關標籤/搜索