爬蟲中常見的字符串編碼問題

先來說一說編碼問題的歷史(不感興趣的童鞋可以直接跳過,直接看重點部分) 由於計算機是美國人發明的,所以一開始的編碼格式採用美國人制定的ASCII碼,用一個字節(Byte)存儲常用的英文字母和字符,前期用了128個字符,後來加入了一些歐洲國家的符號,使用的就是128-255這一段的字符,所以這時使用了256個字符。 再到後來隨着計算機的普及,越來越多的國家在使用的過程中發現現有的這一套編碼系統不能滿
相關文章
相關標籤/搜索