先從字符編碼講起。 編碼
一、美國人首先對其英文字符進行了編碼,也就是最先的ascii碼,用一個字節的低7位來表示英文的128個字符,高1位統一爲0; spa
二、後來歐洲人發現尼瑪你這128位哪夠用,好比我高貴的法國人字母上面的還有註音符,這個怎麼區分,得,把高1位編進來吧,這樣歐洲廣泛使用一個全字節進行編碼,最多可表示256位。歐美人就是喜歡直來直去,字符少,編碼用得位數少; .net
三、可是即便位數少,不一樣國家地區用不一樣的字符編碼,雖然0--127表示的符號是同樣的,可是128--255這一段的解釋徹底亂套了,即便2進制徹底同樣,表示的字符徹底不同,好比135在法語,希伯來語,俄語編碼中徹底是不一樣的符號; 設計
四、更麻煩的是,尼瑪這電腦高科技傳到中國後,中國人發現咱們有10萬多個漢字,大家歐美這256字塞牙縫都不夠。因而就發明了GB2312這些漢字編碼,典型的用2個字節來表示絕大部分的經常使用漢字,最多能夠表示65536個漢字字符,這樣就不難理解有些漢字你在新華字典裏查獲得,可是電腦上若是不處理一下你是顯示不出來的了吧。 code
五、這下各用各的字符集編碼,這世界咋統一?俄國人發封email給中國人,兩邊字符集編碼不一樣,尼瑪顯示都是亂碼啊。爲了統一,因而就發明了unicode,將世界上全部的符號都歸入其中,每個符號都給予一個獨一無二的編碼,如今unicode能夠容納100多萬個符號,每一個符號的編碼都不同,這下可統一了,全部語言均可以互通,一個網頁頁面裏能夠同時顯示各國文字。 blog
六、然而,unicode雖然統一了全世界字符的二進制編碼,但沒有規定如何存儲啊,親。x86和amd體系結構的電腦小端序和大端序都分不清,別提計算機如何識別究竟是unicode仍是acsii了。若是Unicode統一規定,每一個符號用三個或四個字節表示,那麼每一個英文字母前都必然有二到三個字節是0,文本文件的大小會所以大出二三倍,這對於存儲來講是極大的浪費。這樣致使一個後果:出現了Unicode的多種存儲方式。 ci
七、互聯網的興起,網頁上要顯示各類字符,必須統一啊,親。utf-8就是Unicode最重要的實現方式之一。另外還有utf-1六、utf-32等。UTF-8不是固定字長編碼的,而是一種變長的編碼方式。它可使用1~4個字節表示一個符號,根據不一樣的符號而變化字節長度。這是種比較巧妙的設計,若是一個字節的第一位是0,則這個字節單獨就是一個字符;若是第一位是1,則連續有多少個1,就表示當前字符佔用多少個字節。 unicode
八、注意unicode的字符編碼和utf-8的存儲編碼表示是不一樣的,例如"嚴"字的Unicode碼是4E25,UTF-8編碼是E4B8A5,這個7裏面解釋了的,UTF-8編碼不只考慮了編碼,還考慮了存儲,E4B8A5是在存儲識別編碼的基礎上塞進了4E25。 字符編碼
九、UTF-8 使用一至四個字節爲每一個字符編碼。128 個 ASCII 字符(Unicode 範圍由 U+0000 至 U+007F)只需一個字節,帶有變音符號的拉丁文、希臘文、西裏爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及馬爾代夫語(Unicode 範圍由 U+0080 至 U+07FF)須要二個字節,其餘基本多文種平面(BMP)中的字符(CJK屬於此類-Qieqie注)使用三個字節,其餘 Unicode 輔助平面的字符使用四字節編碼。 email
十、最後,要回答你的問題,常規來看,中文漢字在utf-8中到底佔幾個字節,通常是3個字節,最多見的編碼方式是1110xxxx 10xxxxxx 10xxxxxx。
轉自:http://blog.csdn.net/kaida1234/article/details/49515385