相信不少朋友遇到過Java的亂碼問題,最近我也在解決一個「使用文本生成圖片過程當中中文以及特殊字符亂碼」的問題;花了我大量時間,Debug了sun.font、sun.awt下面的各類源碼,終於搞懂了其機制,解決了目前次問題;如今把問題解決過程給寫下來,作個記錄,以避免之後再次遇到。java
下面是我想要執行的代碼(通過極度簡化,可是意思沒變):linux
1 public static void main(String[] args) throws IOException { 2 File file = new File("test.png"); 3 Font font = new Font("宋體", Font.PLAIN, 10); 4 BufferedImage bi = new BufferedImage(400, 200, BufferedImage.TYPE_INT_ARGB); 5 Graphics2D g2 = (Graphics2D) bi.getGraphics(); 6 g2.setBackground(Color.WHITE); 7 g2.clearRect(0, 0, 400, 200); 8 g2.setFont(font); 9 g2.setColor(Color.BLACK); 10 g2.setRenderingHint(RenderingHints.KEY_TEXT_ANTIALIASING, RenderingHints.VALUE_TEXT_ANTIALIAS_ON); 11 g2.drawString("爲何沒有(ꐚꌒꑿꆺ)(ꐚꌒꑿꆺ)這名字特殊不?@¥¥¥ 爲何沒有(ꐚꌒꑿꆺ)(ꐚꌒꑿꆺ)這名字特 ", 0, 10); 12 g2.dispose(); 13 ImageIO.write(bi, PNG, file); 14 }
目標固然是想在打開test.png的時候看到以下場景:程序員
在本地調試沒問題以後,就放到了測試機(Linux)上面去執行了,執行結果簡直撲街:緩存
奉行程序員一向做風:既然有問題,那就Debug!
坑爹的是如今的源碼包已經不包含sun包的代碼了!
幸虧java官方確認OpenJDK的代碼基本和JVM源碼一致,能夠直接從OpenJDK8u進行下載:jdk8u服務器
至於如何使用源碼debug,這個就不寫了··· 這都不會基本也就別看這文章了app
直接下載好源碼,遠程斷點,服務器執行,在debug中先發現了第一個產生本地和測試服務器不一致的代碼:
測試
原來JVM建立Font的時候會使用FontManagerFactory獲取FontManager,而不一樣的系統使用的FontManager是不一樣的!Mac用的是CFontManager,而Linux用的是X11FontManager!字體
那麼這兩個FontManager的不一樣會致使什麼不一樣呢?spa
CFontManager會建立CFont做爲Font2D,這個CFont是JVM專門爲mac建立的類,看類和方法的註釋能夠知道在mac環境下有時候物理字體會被CFont包裝,而這是在native代碼中完成的:
.net
X11FontManager建立的Font2D是包含了邏輯字體和物理字體的集合。X11FontManager繼承了FcFontManager,FcFontManager繼承了SunFontManager;咱們看一下X11FontManager的loadFonts()方法,直接使用了SunFontManager的loadFonts(),SunFontManager的loadFonts()方法加載了物理字體,SunFontManager實現了FontManager的preferLocaleFonts()方法,加載了邏輯字體:
代碼debug到這邊基本已經確認了是不一樣環境的字體加載問題,那麼在debug linux環境的時候發現的邏輯字體和物理字體是什麼東西呢?
物理字體是實際的字體庫,包含字形數據和表,這些數據和表使用字體技術(如 TrueType 或 PostScript Type 1)將字符序列映射到字形序列。Java Platform 的全部實現都支持 TrueType 字體;對其餘字體技術的支持是與實現相關的。物理字體可使用字體名稱,如 Helvetica、Palatino、HonMincho 或任意數量的其餘字體名稱。一般,每種物理字體只支持有限的書寫系統集合,例如,只支持拉丁文字符,或者只支持日文和基本拉丁文。可用的物理字體集合隨配置的不一樣而有所不一樣。要求特定字體的應用程序可使用 createFont 方法來捆綁這些字體,並對其進行實例化。
邏輯字體是由必須受全部 Java 運行時環境支持的 Java 平臺所定義的五種字體系列:Serif、SansSerif、Monospaced、Dialog 和 DialogInput。這些邏輯字體不是實際的字體庫。此外,由 Java 運行時環境將邏輯字體名稱映射到物理字體。映射關係與實現和一般語言環境相關,所以它們提供的外觀和規格各不相同。一般,爲了覆蓋龐大的字符範圍,每種邏輯字體名稱都映射到幾種物理字體。
debug的源碼不少,可是這次問題的關鍵點就在這裏了,其它debug內容就不貼了。
既然已經確認了本地(mac環境)是native的代碼幫咱們作了物理字體的封裝,轉換成了CFont進行渲染,而Linux環境的X11FontManager只是幫咱們加載了物理字體和邏輯字體,可是卻須要咱們本身進行選擇,那麼解決問題的第一步就顯而易見了:將Font的建立從物理字體改成邏輯字體
1 // Serif、SansSerif、Monospaced、Dialog 和 DialogInput 隨意選擇 2 Font font = new Font("Serif", Font.PLAIN, 10);
改完之後執行代碼,仍然是亂碼!繼續Debug,發現是Linux上邏輯字體Serif映射的物理字體沒有中文字體和對應的特殊符號字體,這就很簡單了,直接在Linux上安裝中文字體(simsun.ttf),再安裝特殊符號「ꐚꌒꑿꆺ」可顯示的字體(mysi.ttf),將這兩個字體也放到了jdk的fonts目錄(JAVA_HOME/jre/lib/fonts)下。文章後面有Linux字體安裝方法。
完成上面的改動以後,重啓服務,再次執行成功顯示!熱烈慶祝~~~~
以上的改動已經能夠解決中文和特殊字符亂碼問題,可是我在Debug過程當中發如今邏輯字體加載過程當中,JVM會參考一個配置文件,代碼在sun.awt.FontConfiguration中,這個配置類完成了邏輯字體和物理字體的映射,也指導了SunFontManager建立邏輯字體,而這個FontConfiguration讀取的配置文件就是fontconfig.properties,這個配置文件目錄是JAVA_HOME/jre/lib
查閱了一下資料,JVM字體配置文件的加載順序以下:
JAVA_HOME/jre/lib/fontconfig.OS.Version.properties
JAVA_HOME/jre/lib/fontconfig.OS.Version.bfc
JAVA_HOME/jre/lib/fontconfig.OS.properties
JAVA_HOME/jre/lib/fontconfig.OS.bfc
JAVA_HOME/jre/lib/fontconfig.Version.properties
JAVA_HOME/jre/lib/fontconfig.Version.bfc
JAVA_HOME/jre/lib/fontconfig.properties
JAVA_HOME/jre/lib/fontconfig.bfc
OS是系統,例如:Linux、CentOs、RedHat等;Version是版本號
在這個配置文件中能夠修改邏輯字體與物理字體的對應關係,也就是說能夠手動的修改Serif、SansSerif、Monospaced、Dialog 和 DialogInput這五個邏輯字體在不一樣場景下所使用的真正物理字體。
舉個栗子,下面的配置將serif.plain邏輯字體的中文使用simsun.ttf,拉丁文使用java自帶字體:
1 # @(#)linux.fontconfig.SuSE.properties 1.2 03/10/17 2 # 3 # Copyright 2003 Sun Microsystems, Inc. All rights reserved. 4 # 5 6 # Version 7 version=1 8 9 # Component Font Mappings 10 serif.plain.chinese=-misc-simsun-medium-r-normal--*-%d-*-*-c-*-iso10646-1 11 serif.plain.latin-1=-b&h-lucidabright-medium-r-normal--*-%d-*-*-p-*-iso8859-1 12 13 # Search Sequences 14 sequence.allfonts=latin-1,chinese 15 16 # Exclusion Ranges 17 18 # Font File Names 19 filename.-misc-simsun-medium-r-normal--*-%d-*-*-c-*-iso10646-1=/usr/share/fonts/myfonts/simsun.ttf
PS:以上全部操做基本都須要root權限