1、前言php
前面的博客裏,有對字符集的解析。這裏就不是字符集的事兒了,在PHP中不少函數的處理默認是unicode中的UTF-8編碼格式。那麼廢話很少說,直接開始正題。函數
2、PHP函數mb_split解析測試
1 <?php 2 $preg_strings = '測、試、1、下'; 3 $preg_str = mb_split('、', $preg_strings); 4 print_r($preg_str);
打印結果:編碼
Array ( [0] => 測 [1] => 試 [2] => 一 [3] => 下 )
此函數默認底層解析,以UTF-8的編碼格式解析。以分隔符(、)的UNICODE的16進制碼點分割字符$preg_strings。spa
3、PHP函數preg_split解析code
分割字符串「測試一下」blog
1 <?php 2 $strings = '測試一下'; 3 $mb_arr = preg_split('//u', $strings, -1, PREG_SPLIT_NO_EMPTY); 4 print_r($mb_arr);
打印結果以下:utf-8
Array ( [0] => 測 [1] => 試 [2] => 一 [3] => 下 )
4、PCRE中的/u解析unicode
在PHP中,正則的定界符能夠爲#、%、/等等。字符串
在一個正則中有時後面會有些修飾符。那麼他們都是什麼意思呢?
好比:
%[\x{4e00}-\x{9fa5}]+%u
其中後面的修飾符u代碼表以正則匹配以utf-8的編碼格式匹配。
例子一:
1 <?php 2 $strings = '測試一下'; 3 $is_true = preg_match_all('%[\x{4e00}-\x{9fa5}]+%u', $strings, $match); 4 var_dump($is_true);
打印結果以下:
Array ( [0] => Array ( [0] => 測試一下 ) )
這裏的[\x{4e00}-\x{9fa5}]是什麼意思呢?
在PHP正則中\x用來表示16進制。
中文的UNICODE碼點在4E00 - 9FFF (這裏說的都是16進制)
因此,正則匹配寫法就是區間[],[\x{4E00}-\x{9FFF}]
這兩個正則的效果都是同樣的。
5、尾言
今天的隨筆到這就完事了,藉此分享。