用PHP將Unicode 轉化爲UTF-8

時間 2019-11-13
標籤 php unicode 轉化 utf 欄目 PHP 简体版
原文原文鏈接
 
         function  
         unescape( 
         $str 
         ) { 
        
         $str  
         = rawurldecode( 
         $str 
         ); 
        
         preg_match_all( 
         "/(?:%u.{4})|&#x.{4};|&#\d+;|.+/U" 
         , 
         $str 
         , 
         $r 
         ); 
        
         $ar  
         =  
         $r 
         [0]; 
        
         //print_r($ar); 
        
         foreach 
         ( 
         $ar  
         as  
         $k 
         => 
         $v 
         ) { 
        
         if 
         ( 
         substr 
         ( 
         $v 
         ,0,2) ==  
         "%u" 
         ){ 
        
         $ar 
         [ 
         $k 
         ] = iconv( 
         "UCS-2BE" 
         , 
         "UTF-8" 
         ,pack( 
         "H4" 
         , 
         substr 
         ( 
         $v 
         ,-4))); 
        
         } 
        
         elseif 
         ( 
         substr 
         ( 
         $v 
         ,0,3) ==  
         "&#x" 
         ){ 
        
         $ar 
         [ 
         $k 
         ] = iconv( 
         "UCS-2BE" 
         , 
         "UTF-8" 
         ,pack( 
         "H4" 
         , 
         substr 
         ( 
         $v 
         ,3,-1))); 
        
         } 
        
         elseif 
         ( 
         substr 
         ( 
         $v 
         ,0,2) ==  
         "&#" 
         ) { 
        
         $ar 
         [ 
         $k 
         ] = iconv( 
         "UCS-2BE" 
         , 
         "UTF-8" 
         ,pack( 
         "n" 
         , 
         substr 
         ( 
         $v 
         ,2,-1))); 
        
         } 
        
         } 
        
         return  
         join( 
         "" 
         , 
         $ar 
         ); 
        
         } 
        
         echo  
         unescape( 
         "紫星藍" 
         ); 
        
         今天有用戶反饋，表單系統用戶提交的數據中文會亂碼。測試發現問題出在 iconv 轉換上。 
        
         iconv( 
         'UCS-2' 
         ,  
         'GBK' 
         ,  
         '中文' 
         ) 
        
         Google 搜索發現，緣由是 Linux 服務器上 UCS-2 編碼方式與 Winodws 不一致。 
        
         因而，我改爲  iconv( 
         'UCS-2BE' 
         ,  
         'GBK' 
         ,  
         '中文' 
         ) 試試，中文正常了 
        
         如下是有關兩個平臺 UCS-2 編碼的潛規則： 
        
         1, UCS-2 不等於 UTF-16。 UTF-16 每一個字節使用 ASCII 字符範圍編碼，而 UCS-2 對每一個字節的編碼能夠超出 ASCII 字符範圍。UCS-2 和 UTF-16 對每一個字符至多佔兩個字節，可是他們的編碼是不同的。 
        
         2, 對於 UCS-2, windows 下默認是 UCS-2LE。用 MultibyteToWidechar（或者A2W）生成的是 UCS-2LE 的 unicode。windows記事本能夠將文本保存爲 UCS-2BE，至關於多了層轉換。 
        
         3, 對於 UCS-2, linux 下默認是 UCS-2BE。用iconv(指定UCS-2)來轉換生成的是 UCS-2BE 的 unicode。若是轉換windows平臺過來的 UCS-2, 須要指定 UCS-2LE。 
        
         4, 鑑於windows和linux等多個平臺對 UCS-2 的理解不一樣（UCS-2LE,UCS-2BE）。MS 主張 unicode 有個引導標誌(UCS-2LE FFFE, UCS-2BE FEFF)，以代表下面的字符是 unicode 而且判別 big-endian 或 little-endian。 因此從 windows 平臺過來的數據發現有這個前綴，不用慌張。 
        
         5, linux 的編碼輸出，好比從文件輸出，從 printf 輸出，須要控制檯作適當的編碼匹配（若是編碼不匹配，通常和該程序編譯時的編碼有若干關係），而控制檯的轉換輸入須要查看當前的系統編碼。好比控制檯當前的編碼是 UTF-8, 那麼 UTF-8 編碼的東西能正確顯示，GBK 就不能；一樣，當前編碼是 GBK, 就能顯示 GBK 編碼，後來的系統應該更智能的處理好更多的轉換了。不過經過 putty 等終端仍是須要設置好終端的編碼轉換以解除亂碼的煩惱。 
        
         PHP中對漢字進行UNICODE編碼和解碼的實現 
        
         //將內容進行UNICODE編碼 
        
         function  
         unicode_encode( 
         $name 
         ) 
        
         { 
        
         $name  
         = iconv( 
         'UTF-8' 
         ,  
         'UCS-2' 
         ,  
         $name 
         ); 
        
         $len  
         =  
         strlen 
         ( 
         $name 
         ); 
        
         $str  
         =  
         '' 
         ; 
        
         for  
         ( 
         $i  
         = 0;  
         $i  
         <  
         $len  
         - 1;  
         $i  
         =  
         $i  
         + 2) 
        
         { 
        
         $c  
         =  
         $name 
         [ 
         $i 
         ]; 
        
         $c2  
         =  
         $name 
         [ 
         $i  
         + 1]; 
        
         if  
         (ord( 
         $c 
         ) > 0) 
        
         {     
         // 兩個字節的文字 
        
         $str  
         .=  
         '\u' 
         . 
         base_convert 
         (ord( 
         $c 
         ), 10, 16). 
         base_convert 
         (ord( 
         $c2 
         ), 10, 16); 
        
         } 
        
         else 
        
         { 
        
         $str  
         .=  
         $c2 
         ; 
        
         } 
        
         } 
        
         return  
         $str 
         ; 
        
         } 
        
         $name  
         =  
         'MY,你大爺的' 
         ; 
        
         $unicode_name 
         =unicode_encode( 
         $name 
         ); 
        
         echo  
         '<h3>' 
         . 
         $unicode_name 
         . 
         '</h3>' 
         ; 
        
         // 將UNICODE編碼後的內容進行解碼 
        
         function  
         unicode_decode( 
         $name 
         ) 
        
         { 
        
         // 轉換編碼，將Unicode編碼轉換成能夠瀏覽的utf-8編碼 
        
         $pattern  
         =  
         '/([\w]+)|(\\\u([\w]{4}))/i' 
         ; 
        
         preg_match_all( 
         $pattern 
         ,  
         $name 
         ,  
         $matches 
         ); 
        
         if  
         (! 
         empty 
         ( 
         $matches 
         )) 
        
         { 
        
         $name  
         =  
         '' 
         ; 
        
         for  
         ( 
         $j  
         = 0;  
         $j  
         <  
         count 
         ( 
         $matches 
         [0]);  
         $j 
         ++) 
        
         { 
        
         $str  
         =  
         $matches 
         [0][ 
         $j 
         ]; 
        
         if  
         ( 
         strpos 
         ( 
         $str 
         ,  
         '\\u' 
         ) === 0) 
        
         { 
        
         $code  
         =  
         base_convert 
         ( 
         substr 
         ( 
         $str 
         , 2, 2), 16, 10); 
        
         $code2  
         =  
         base_convert 
         ( 
         substr 
         ( 
         $str 
         , 4), 16, 10); 
        
         $c  
         =  
         chr 
         ( 
         $code 
         ). 
         chr 
         ( 
         $code2 
         ); 
        
         $c  
         = iconv( 
         'UCS-2' 
         ,  
         'UTF-8' 
         ,  
         $c 
         ); 
        
         $name  
         .=  
         $c 
         ; 
        
         } 
        
         else 
        
         { 
        
         $name  
         .=  
         $str 
         ; 
        
         } 
        
         } 
        
         } 
        
         return  
         $name 
         ; 
        
         } 
        
         echo  
         'MY,\u4f60\u5927\u7237\u7684 -> ' 
         .unicode_decode( 
         $unicode_name 
         );