最近發現數據庫中的一個字段值數據異常的問題,業務場景中不容許這個字符串字段中出現空格,可是發現有部分數據依然有'空格',反覆驗證過以後發現本身寫的代碼的的確確會把空格trim掉,反覆調試後發現代碼沒有問題,可是什麼狀況使得這些數據逃過了業務代碼的校驗?java
難道我肉眼看到的'空格',不是咱們日常見到或者理解的'空格'?數據庫
帶着這個疑問,我搜索了一下相關的問題,發現果不其然,不少人都遇到了C2 A0這個不可見字符,那麼這個字符究竟是什麼呢?編碼
打開UTF-8的編碼表,https://www.utf8-chartable.de/unicode-utf8-table.pl?utf8=dec 找到對應的字符spa
首先明確C2 A0表明的編碼序號是多少,很顯然咱們只須要將這個十六進制轉爲十進制,即C2=194 A0=160,這個在編碼表中對應的是調試
而咱們通常意義上將的空格的編碼是32code
那們咱們經過代碼來模擬一下上面兩個字符blog
普通的空格 Unicode code point爲U+0020即32ci
C2 A0空格 Unicode code point爲U+00A0即160unicode
找到緣由以後,咱們想辦法把這種C2 A0空格給去除掉字符串
源代碼見下
package com.lingyejun.dating.chap11; import java.nio.charset.StandardCharsets; import java.util.regex.Matcher; import java.util.regex.Pattern; public class SpecialSpace { public static void main(String[] args) { String str1 = "lingyejun "; byte[] str1Bytes = str1.getBytes(); String space = new String(str1Bytes, StandardCharsets.UTF_8); System.out.println("帶有32 Space的字符串:" + space); System.out.println("使用trim去掉32 -> Space:" + space.trim()); byte[] str2Bytes = new byte[11]; System.arraycopy(str1Bytes, 0, str2Bytes, 0, str1Bytes.length); str2Bytes[9] = (byte) 0xC2; str2Bytes[10] = (byte) 0xA0; String noBreakSpace = new String(str2Bytes, StandardCharsets.UTF_8); System.out.println("帶有C2 A0 -> NO-BREAK SPACE的字符串:" + noBreakSpace); System.out.println("使用trim沒法去掉C2 A0 -> NO-BREAK SPACE:" + noBreakSpace.trim()); // 32爲咱們日常談論的Space空格 -> SPACE byte[] bytes1 = new byte[]{(byte) 0x20}; String space1 = new String(bytes1, StandardCharsets.UTF_8); System.out.println("UTF-8 字符編碼號32 -> 0x1F 輸出:" + space1); // 0xC2=194 0xA0=160 -> NO-BREAK SPACE byte[] bytes2 = new byte[]{(byte) 0xC2, (byte) 0xA0}; String space2 = new String(bytes2, StandardCharsets.UTF_8); char[] chars3 = space2.toCharArray(); System.out.println("UTF-8 字符編碼號194 -> 0xC2 160 -> 0xA0 輸出:" + space2); byte[] bytes3 = new byte[]{(byte) 0xC2, (byte) 0xA0}; String c2a0Space = new String(bytes3, StandardCharsets.UTF_8); Pattern p = Pattern.compile(c2a0Space); Matcher m = null; m = p.matcher(noBreakSpace); noBreakSpace = m.replaceAll(""); System.out.println("使用正則去掉C2 A0 -> NO-BREAK SPACE:" + noBreakSpace); } }
若是對您有幫助,請不要忘了給翎野君點贊。