unicode編碼轉換

PHP中對漢字進行UNICODE編碼和解碼的實現

(2008-09-18 15:19:58)php

轉載html

標籤:

php編程

unicode編碼

解碼

it

分類: IT技術

在前面的文章中我用.NET實現了UNICODE的解碼,使用JAVA實現了UNICODE的編碼,在JAVA中的實現最簡單,在.NET中的實現也比較 容易。而如今,使用PHP語言也一樣遇到這個問題,對UNICODE編碼的內容進行處理,因而又得用PHP寫一個UNICODE的編碼和解碼程序。此次徹 底點,把編碼和解碼的程序都一塊兒寫出來,分享給你們。至於UNICODE編碼的原理和做用,在前面的文章中已經介紹過。
C#中將UNICODE編碼後的字符轉換爲漢字
保護JAVA源文件,將ASC2編碼的字符串轉換爲UNICODE編碼

UNICODE編碼在PHP中使用UCS-2編碼,以前還真是沒有發現,一直還覺得是UTF-8就好了。貼出代碼:


//將內容進行UNICODE編碼,編碼後的內容格式:YOKA\u738b (原始:YOKA王)
function unicode_encode($name)
{
   $name = iconv('UTF-8', 'UCS-2', $name);
   $len = strlen($name);
   $str = '';
   for ($i = 0; $i < $len - 1; $i = $i + 2)
   {
      $c = $name[$i];
      $c2 = $name[$i + 1];
      if (ord($c) > 0)
      {   // 兩個字節的文字
         $str .= '\u'.base_convert(ord($c), 10, 16).base_convert(ord($c2), 10, 16);
      }
      else
      {
         $str .= $c2;
      }
   }
   return $str;
}

// 將UNICODE編碼後的內容進行解碼,編碼後的內容格式:YOKA\u738b (原始:YOKA王)
function unicode_decode($name)
{
   // 轉換編碼,將Unicode編碼轉換成能夠瀏覽的utf-8編碼
   $pattern = '/([\w]+)|(\\\u([\w]{4}))/i';
   preg_match_all($pattern, $name, $matches);
   if (!empty($matches))
   {
      $name = '';
      for ($j = 0; $j < count($matches[0]); $j++)
      {
         $str = $matches[0][$j];
         if (strpos($str, '\\u') === 0)
         {
            $code = base_convert(substr($str, 2, 2), 16, 10);
            $code2 = base_convert(substr($str, 4), 16, 10);
            $c = chr($code).chr($code2);
            $c = iconv('UCS-2', 'UTF-8', $c);
            $name .= $c;
         }
         else
         {
            $name .= $str;
         }
      }
   }
   return $name;
}

測試用例:

echo '<h3>YOKA\u738b -> '.unicode_decode('YOKA\u738b').'</h3>';
$name = 'YOKA王';
echo '<h3>'.unicode_encode($name).'</h3>';

還要說一句:新浪博客的編輯器把/ ** * /全都給過濾了 PHP中對漢字進行UNICODE編碼和解碼的實現 編程

相關文章
相關標籤/搜索