在涉及Web前端開發時, 有時會遇到\uXXXX
格式表示的字符, 其中XXXX
是16進制數字的字符串表示形式, 在js中這個叫Unicode轉義字符, 和\n
\r
同屬於轉義字符. 在其餘語言中也有相似的, 可能還有其它變形的格式.前端
多數時候遇到須要解碼的狀況多點, 因此會先介紹解碼decode, 後介紹編碼encode.java
下文會提供Javascript C# Java三種語言下不一樣方法的實現和簡單說明, 會涉及到正則和位運算的典型用法.git
1
2 3 |
function decode(s) { return unescape(s.replace(/\\(u[0-9a-fA-F]{4})/gm, '%$1')); } |
unescape
是用來處理%uXXXX
這樣格式的字符串, 將\uXXXX
替換成%uXXXX
後unescape
就能夠處理了.github
1
2 3 4 5 |
function encode1(s) { return escape(s).replace(/%(u[0-9A-F]{4})|(%[0-9A-F]{2})/gm, function($0, $1, $2) { return $1 && '\\' + $1.toLowerCase() || unescape($2); }); } |
和解碼中相對應, 使用escape
編碼, 而後將%uXXXX
替換爲\uXXXX
, 由於escape
還可能把一些字符編碼成%XX
的格式, 因此這些字符還須要使用unescape
還原回來.安全
escape
編碼結果%uXXXX
中的XXXX
是大寫的, 因此後面的replace
只處理大寫的A-F
.app
不使用正則和escape
函數
1
2 3 4 5 6 7 8 9 10 11 12 13 14 |
function encode2(s) { var i, c, ret = [], pad = '000'; for (i = 0; i < s.length; i++) { c = s.charCodeAt(i); if (c > 256) { c = c.toString(16); ret[i] = '\\u' + pad.substr(0, 4 - c.length) + c; } else { ret[i] = s[i]; } } return ret.join(''); } |
遍歷字符串中的字符, 那些charCode
大於256的會轉換成16進制字符串c.toString(16)
, 若是不足4位則左邊補0pad.substr(0, 4 - c.length)
. 結尾將遍歷的結果合併成字符串返回.性能
1
2 3 4 5 6 7 8 9 10 11 12 13 14 |
static Regex reUnicode = new Regex(@"\\u([0-9a-fA-F]{4})", RegexOptions.Compiled); public static string Decode(string s) { return reUnicode.Replace(s, m => { short c; if (short.TryParse(m.Groups[1].Value, System.Globalization.NumberStyles.HexNumber, CultureInfo.InvariantCulture, out c)) { return "" + (char)c; } return m.Value; }); } |
正則和js中的同樣, 將XXXX
轉換以16進制System.Globalization.NumberStyles.HexNumber
解析爲short
類型, 而後直接(char)c
就能轉換成對應的字符, "" + (char)c
用於轉換成字符串類型返回.測試
因爲正則中也有\uXXXX
, 因此須要寫成\\uXXXX
來表示匹配字符串\uXXXX
, 而不是具體的字符.ui
上面使用到了Lambda, 須要至少dotnet 4的SDK才能編譯經過, 能夠在dotnet 2下運行.
1
2 3 4 5 6 |
static Regex reUnicodeChar = new Regex(@"[^\u0000-\u00ff]", RegexOptions.Compiled); public static string Encode(string s) { return reUnicodeChar.Replace(s, m => string.Format(@"\u{0:x4}", (short)m.Value[0])); } |
和C#的解碼實現正好相反, 0-255以外的字符, 從char
轉換成short
, 而後string.Format
以16進制, 至少輸出4位.
和C#類似的, 使用正則
1
2 3 4 5 6 7 8 9 10 11 12 |
static final Pattern reUnicode = Pattern.compile("\\\\u([0-9a-zA-Z]{4})"); public static String decode1(String s) { Matcher m = reUnicode.matcher(s); StringBuffer sb = new StringBuffer(s.length()); while (m.find()) { m.appendReplacement(sb, Character.toString((char) Integer.parseInt(m.group(1), 16))); } m.appendTail(sb); return sb.toString(); } |
Java語言沒有內嵌正則語法, 也沒有相似C#的@"\u1234"
原始形式字符串的語法, 因此要表示正則中匹配\
, 就須要\\\\
, 其中2個是用於Java中字符轉義, 2個是正則中的字符轉義.
Java語言中沒有設計函數或者委託的語法, 因此它的正則庫提供的是find
appendReplacement
appendTail
這些方法的組合, 等價於js和C#中的replace
.
這裏使用StringBuffer
類型是因爲appendReplacement
只接受這個類型, StringBuffer
有線程安全的額外操做, 因此性能差一點. 也許第三方的正則庫能把API設計的更好用點.
Integer.parseInt(m.group(1), 16)
用於解析爲int
類型, 以後再(char)
, 以及Character.toString
轉換成字符串.
由於StringBuffer
的緣由, 不使用正則的實現
1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 |
public static String decode2(String s) { StringBuilder sb = new StringBuilder(s.length()); char[] chars = s.toCharArray(); for (int i = 0; i < chars.length; i++) { char c = chars[i]; if (c == '\\' && chars[i + 1] == 'u') { char cc = 0; for (int j = 0; j < 4; j++) { char ch = Character.toLowerCase(chars[i + 2 + j]); if ('0' <= ch && ch <= '9' || 'a' <= ch && ch <= 'f') { cc |= (Character.digit(ch, 16) << (3 - j) * 4); } else { cc = 0; break; } } if (cc > 0) { i += 5; sb.append(cc); continue; } } sb.append(c); } return sb.toString(); } |
手工作就是麻煩不少, 代碼中也一坨的符號.
遍歷全部字符chars
, 檢測到\u
這樣的字符串, 檢測後續的4個字符是不是16進制數字的字符表示. 由於Character.isDigit
會把一些其它語系的數字也算進來, 因此保險的作法'0' <= ch && ch <= '9'
.
Character.digit
會把0-9
返回爲int
類型的0-9, 第2個參數是16時會把a-f
返回爲int
類型的10-15.
剩下的就是用|=
把各個部分的數字合併到一塊兒, 轉換成char類型. 還有一些調整遍歷位置等.
考慮到Java正則的杯具, 仍是繼續手工來吧, 相對解碼來講代碼少點.
1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
public static String encode(String s) { StringBuilder sb = new StringBuilder(s.length() * 3); for (char c : s.toCharArray()) { if (c < 256) { sb.append(c); } else { sb.append("\\u"); sb.append(Character.forDigit((c >>> 12) & 0xf, 16)); sb.append(Character.forDigit((c >>> 8) & 0xf, 16)); sb.append(Character.forDigit((c >>> 4) & 0xf, 16)); sb.append(Character.forDigit((c) & 0xf, 16)); } } return sb.toString(); } |
對應於上文Java編碼的實現正好是反向的實現, 依舊遍歷字符, 遇到大於256的字符, 用位運算提取出4部分並使用Character.forDigit
轉換成16進制數對應的字符.
剩下就是sb.toString()
返回了.
轉自:
http://netwjx.github.io/blog/2012/07/07/encode-and-decode-unicode-escape-string/