很久沒更新了,最近事比較多,或許下個月就會恢復到正常的發文頻次。java
這篇文章得從一個 emoji
表情開始,我以前開源的一個 IM
項目中有朋友提到但願能夠支持 emoji
表情傳輸。git
https://github.com/crossoverJie/cim/issues/12github
正好那段時間有空,加上這功能看着也比較簡單準備把它實現了。數據庫
<!--more-->app
但在真正實現時卻發現沒那麼簡單。編碼
我首先嚐試將一個 emoji
表情存入數據庫看看:spa
果不其然的出錯了,致使這個異常的緣由是目前數據庫所支持的編碼中並不能存放 emoji
,那 emoji
表情究竟是個什麼東西呢。翻譯
本質上來講計算機所存儲的信息都是二進制 01
,emoji
也不例外,只要存儲和讀取(編解碼)的方式一致那就能夠準確的展現這個信息。debug
更多編解碼的內容後文再介紹,這裏先想一想如何快速解決問題。3d
雖然說想要在 MySQL
中存儲 emoji
的方式也有好幾種,好比能夠升級存儲字符集到能夠存放 emoji
,但這種須要 MySQL
的版本支持。
因此更保險的方式仍是在應用層解決,好比咱們是否能夠將 emoji 當作字符串存儲,只是顯示的時候要格式化爲一個 emoji 表情,這樣對於全部的數據庫版本均可兼容。
因而咱們這裏的需求是一個 emoji
表情轉換爲字符串,同時還得將這個字符串轉換爲 emoji。
爲此我在 GitHub
上找到了一個庫,它能夠方便的將一個 emoji
轉換爲字符串的別名,同時也支持將這個別名轉換爲 emoji
。
https://github.com/vdurmont/emoji-java
@Test public void emoji() throws Exception{ String str = "An :grinning:awesome :smiley:string 😄with a few :wink:emojis!"; String result = EmojiParser.parseToUnicode(str); System.out.println(result); result = EmojiParser.parseToAliases(str); System.out.println(result); }
因此基於這個基礎庫最終實現了表情功能。
其實它本質上是本身維護了一個 emoji 的別名及它的 Unicode 編碼(本質上是 UTF-16
)的映射關係,再每次格式化數據的時候都會從這個表中進行翻譯。
自此需求是完成了,但還有幾個問題待解決。
Java
中是如何存儲 emoji
的?emoji
是如何進行編碼的?在談 emoji
以前很是有必要了解下計算機編碼鼻祖的 ASCII 碼。
你們如今都知道在計算機內部存儲數據本質上都是二進制的 0/1,對於一個字節來講有 8 位;每一位能夠表示兩種狀態,也就是 0 或 1,這樣排列組合下來,一個字節就能夠表示 256(2∧8) 種不一樣的狀態。
對於美國來講他們平常使用的英語只須要 26 個英文字母,再加上一些標點符號就足夠用計算機來進行信息交流。
因而上個世紀 60年代定義了一套二進制與英文字符的映射關係,能夠代表 128 個不一樣的英文字符,也就是如今的 ASCII
碼。
這樣咱們就可使用一個字節來表示現代英文,看起來很是不錯。
隨着計算機的發展,逐漸在歐洲、亞洲地區流行;再利用這套 ASCII
碼進行信息交流顯然是不行的,不少地區壓根就不使用英文,並且也遠超了 128 位字符(中文就更不用說了)。
雖然說一個字節在 ASCII
碼中只用了 128
位,但剩下(258-128
)的依然不足用用於描述其餘語言。
這時若是能有一種包含了世界上全部的文字的字符集,每個地區的文字都在這個字符集中有惟一的二進制表示,這樣便不會出現亂碼問題了。
Unicode
就是來作這個的,截止目前 Unicode
已經收錄了 10W+ 的字符,你所能使用的字符都包含進去了。
Unicode
雖然說包含了幾乎全部的文字,但在咱們平常使用好像不多看到他的身影,咱們用的更多的仍是 UTF-8
這樣的編碼規則。
這也有幾方面的緣由,好比說除開英文,其餘大部分的文字都須要用 2 個甚至更多的字節來表示;若是統一都用 Unicode 來表示,那必然須要以佔用字節最多的字符長度爲標準。
好比漢字須要 2 個字節來表示,而英文只須要一個字節;這時就得規定 2 個字節表示一個字符,否則漢字就無法表示了。
但這樣也會帶來一個問題:用兩個字節表示英文會使得第一個字節徹底是浪費的,若是一段信息全是英文那對內存的浪費是巨大的。
這時你們應該都能想到,咱們須要一個可變的長度的字符編碼規則,當是英文時咱們就用一個字節表示,甚至能夠徹底兼容 ASCII 碼。
UTF-8 即是實現這個需求的,它利用兩種規則能夠表示一個字節以及多字節的字符。
大體規則以下:
這樣即可根據字符的長度最大程度的節省存儲空間。
固然還有其餘的編碼規則,好比 UTF-16
、UTF-32
,平時用的很少,但本質上都和 UTF-8
同樣,都是 Unicode
的不一樣實現,也是用於表示世界上大部分文字的字符集。
如今來回到本次的主題,emoji
。
剛纔說到 Unicode
包含了世界上大部分的字符,emoji
天然也不例外。
https://apps.timwhitlock.info/emoji/tables/unicode
這個表格中包含了全部的 emoji
以及它所對應的 Unicode
編碼,同時也有對應的 UTF-8
編碼的實現。
從圖中也能夠看出 emoji
表情用 UTF-8
表示時會佔用 4 個字節,那在 Java 中它會是怎麼存儲的呢?
很簡單,debug 一下就知道了。
在 Java
中也是經過 char
來存儲 emoji
的,char
做爲基本數據類型會佔用 2 個字節;從剛纔的圖中能夠看出,emoji
使用 UTF-8
會佔用四個字節,這樣很明顯 char
是無法存儲的,因此在這裏實際上是使用 UTF-16
編碼進行存儲。
基於這個原理,咱們也能夠本身實現將一個 emoji
表情轉換爲字符串,同時也可經過字符串轉換爲 emoji
。
從此次研究 emoji
能夠看出,任何一門基礎知識都是應用的根基,在計算機行業尤其突出,但願你們看完這篇能回憶起大學課堂被老師支配的恐懼😂。
隨便提一下,相關源碼可在這裏查看: