PHPPCRE正則解析

1、前言php

前面的博客裏,有對字符集的解析。這裏就不是字符集的事兒了,在PHP中不少函數的處理默認是unicode中的UTF-8編碼格式。那麼廢話很少說,直接開始正題。函數

2、PHP函數mb_split解析測試

1 <?php
2 $preg_strings = '測、試、1、下';
3 $preg_str = mb_split('、', $preg_strings);
4 print_r($preg_str);

打印結果:編碼

 

Array
(
    [0] => 測
    [1] => 試
    [2] => 一
    [3] =>)

 

此函數默認底層解析,以UTF-8的編碼格式解析。以分隔符(、)的UNICODE的16進制碼點分割字符$preg_stringsspa

 

 

3、PHP函數preg_split解析code

分割字符串「測試一下」blog

 

1 <?php
2 $strings = '測試一下';
3 $mb_arr = preg_split('//u', $strings, -1, PREG_SPLIT_NO_EMPTY);
4 print_r($mb_arr);

 

打印結果以下:utf-8

Array
(
    [0] => 測
    [1] => 試
    [2] => 一
    [3] => 下
)

4、PCRE中的/u解析unicode

在PHP中,正則的定界符能夠爲#、%、/等等。字符串

在一個正則中有時後面會有些修飾符。那麼他們都是什麼意思呢?

好比:

 

%[\x{4e00}-\x{9fa5}]+%u

 

其中後面的修飾符u代碼表以正則匹配以utf-8的編碼格式匹配。

例子一:

 

1 <?php
2 $strings = '測試一下';
3 $is_true = preg_match_all('%[\x{4e00}-\x{9fa5}]+%u', $strings, $match);
4 var_dump($is_true);

 

打印結果以下:

Array
(
    [0] => Array
        (
            [0] => 測試一下
        )

)

這裏的[\x{4e00}-\x{9fa5}]是什麼意思呢?

在PHP正則中\x用來表示16進制。

中文的UNICODE碼點在4E00 - 9FFF (這裏說的都是16進制)

因此,正則匹配寫法就是區間[],[\x{4E00}-\x{9FFF}]

這兩個正則的效果都是同樣的。

5、尾言

今天的隨筆到這就完事了,藉此分享。

相關文章
相關標籤/搜索