PHP內置函數分析之strlen 與 mb_strlen

時間 2020-09-11

標籤 php 內置函數分析 strlen 欄目 PHP 简体版

原文原文鏈接

在PHP裏有兩個計算字符串個數的函數php

一個是 strlen,一個是mb_strlen;
先來看看幫助手冊的定義ide

strlen

strlen — 獲取字符串長度
int strlen ( string $string )
返回給定的字符串 string 的長度。函數

mb_strlen

int mb_strlen ( string $str [, string $encoding ] )ui

返回給定的字符串 string 的長度。編碼

encoding參數爲字符編碼。若是省略，則使用內部字符編碼。spa

這麼看除了mb_strlen能夠傳遞一個字符編碼好像沒有其餘區別

寫一個PHP程序來看看字符串

  
  
  
  
   
   
   
   $a="我是s斯t人"; 
   
   
   
   echo strlen($a); 
   
   
   
   echo "<br>"; 
   
   
   
   echo mb_strlen($a,'utf8');

輸出結果
14
6
很明顯 strlen對於中文來說,每一個漢字佔三個字節,$a的字節數就是14,說明 strlen計算的是字符串所佔的字節數
在mb_strlen計算時,若是encoding設置爲utf8,那麼,中文將佔一個字節那麼$a就是6get

須要注意的是 mb_strlen並非PHP內置函數,須要修改php.ini,開啓 php_mbstring
好了..
咱們下面就深刻到PHP內核源碼去看看兩個函數的不一樣.
先看mb_strlen的定義源碼

  
  
  
  
   
   
   
   PHP_FUNCTION(mb_strlen) 
   
   
   
   { 
   
   
   
           int n; 
   
   
   
           mbfl_string string; 
   
   
   
           char *enc_name = NULL;        int enc_name_len; 
   
   
   
     
   
   
   
           mbfl_string_init(&string); 
   
   
   
           if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "s|s", (char **)&string.val, &string.len, &enc_name, &enc_name_len) == FAILURE) { 
   
   
   
                   RETURN_FALSE; 
   
   
   
           }     
   
   
   
     
   
   
   
           string.no_language = MBSTRG(language); 
   
   
   
           if (enc_name == NULL) {                string.no_encoding = MBSTRG(current_internal_encoding); 
   
   
   
           } else { 
   
   
   
                   string.no_encoding = mbfl_name2no_encoding(enc_name); 
   
   
   
                   if (string.no_encoding == mbfl_no_encoding_invalid) { 
   
   
   
                           php_error_docref(NULL TSRMLS_CC, E_WARNING, "Unknown encoding \"%s\"", enc_name);                        RETURN_FALSE; 
   
   
   
                   } 
   
   
   
           }             
   
   
   
     
   
   
   
           n = mbfl_strlen(&string); 
   
   
   
           if (n >= 0) { 
   
   
   
                   RETVAL_LONG(n); 
   
   
   
           } else { 
   
   
   
                   RETVAL_FALSE; 
   
   
   
           } 
   
   
   
   }

mbfl_string 是一個結構體string

  
  
  
  
   
   
   
   typedef struct _mbfl_string { 
   
   
   
           enum mbfl_no_language no_language; 
   
   
   
           enum mbfl_no_encoding no_encoding; 
   
   
   
           unsigned char *val;        unsigned int len; 
   
   
   
   } mbfl_string;

看定義就知道,這兩個保存了當前字符串的語言,編碼,保存的值和長度
mbfl_string_init(&string);
這個函數是初始化string;
if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, 「s|s」, (char **)&string.val, &string.len, &enc_name, &enc_name_len) == FAILURE) {
RETURN_FALSE;
}
這裏接收傳遞過來的兩個參數,也就是前面看到的 string和encoding,
enc_name保存編碼,enc_name_len保存編碼名字的長度
string.no_language = MBSTRG(language);
展開後
#define MBSTRG(v) (mbstring_globals.v)
這裏將mbstring的language賦給string的no_language;

  
  
  
  
   
   
   
   if (enc_name == NULL) {//若是沒有手動設置編碼,那麼就使用PHP內置的編碼 這個時候就與strlen相同 
   
   
   
            string.no_encoding = MBSTRG(current_internal_encoding); 
   
   
   
    }else { 
   
   
   
                  //檢查是不是有效的編碼 
   
   
   
                  string.no_encoding = mbfl_name2no_encoding(enc_name); 
   
   
   
                  //若是傳遞來的編碼無效 拋出異常 
   
   
   
                   if (string.no_encoding == mbfl_no_encoding_invalid) { 
   
   
   
                           php_error_docref(NULL TSRMLS_CC, E_WARNING, "Unknown encoding \"%s\"", enc_name); 
   
   
   
                           RETURN_FALSE; 
   
   
   
                   } 
   
   
   
           } 
   
   
   
   n = mbfl_strlen(&string);//計算字符串的長度

原來這個函數裏只是驗證編碼
真正計算長度的函數是mbfl_strlen

  
  
  
  
   
   
   
   int  mbfl_strlen(mbfl_string *string) 
   
   
   
   { 
   
   
   
           int len, n, m, k; 
   
   
   
           unsigned char *p; 
   
   
   
           const unsigned char *mbtab; 
   
   
   
           const mbfl_encoding *encoding; 
   
   
   
          //驗證編碼是否有效 
   
   
   
           encoding = mbfl_no2encoding(string->no_encoding); 
   
   
   
           if (encoding == NULL || string == NULL) { 
   
   
   
                   return -1; 
   
   
   
           }  
   
   
   
     
   
   
   
           len = 0; 
   
   
   
   //下面是幾種不一樣的 
   
   
   
           if (encoding->flag & MBFL_ENCTYPE_SBCS) {//是單字節字符集 直接返回 
   
   
   
                   len = string->len; 
   
   
   
           } else if (encoding->flag & (MBFL_ENCTYPE_WCS2BE | MBFL_ENCTYPE_WCS2LE)) { //寬字節每一個字佔2位 
   
   
   
                   len = string->len/2; 
   
   
   
           } else if (encoding->flag & (MBFL_ENCTYPE_WCS4BE | MBFL_ENCTYPE_WCS4LE)) {//寬字節每一個字佔4位 
   
   
   
                   len = string->len/4; 
   
   
   
           } else if (encoding->mblen_table != NULL) {   //mblen_table是作什麼的沒搞清楚,望賜教 
   
   
   
                   mbtab = encoding->mblen_table; 
   
   
   
                   n = 0; 
   
   
   
                   p = string->val; 
   
   
   
                   k = string->len; 
   
   
   
                   /* count */ 
   
   
   
                   if (p != NULL) { 
   
   
   
                           while (n < k) { 
   
   
   
                                   m = mbtab[*p]; 
   
   
   
                                   n += m; 
   
   
   
                                   p += m; 
   
   
   
                                   len++; 
   
   
   
                           }; 
   
   
   
                   } 
   
   
   
           } else { //其餘編碼 轉換成mbfl_no_encoding_wchar再計算 
   
   
   
                   /* wchar filter */ 
   
   
   
                   mbfl_convert_filter *filter = mbfl_convert_filter_new( 
   
   
   
                     string->no_encoding, 
   
   
   
                     mbfl_no_encoding_wchar, 
   
   
   
                     filter_count_output, 0, &len); 
   
   
   
                   if (filter == NULL) { 
   
   
   
                           return -1; 
   
   
   
                   } 
   
   
   
                   /* count */ 
   
   
   
                   n = string->len; 
   
   
   
                   p = string->val; 
   
   
   
                   if (p != NULL) { 
   
   
   
                           while (n > 0) { 
   
   
   
                                   (*filter->filter_function)(*p++, filter); 
   
   
   
                                   n--; 
   
   
   
                           } 
   
   
   
                   } 
   
   
   
                   mbfl_convert_filter_delete(filter); 
   
   
   
           } 
   
   
   
     
   
   
   
           return len; 
   
   
   
   }

mb_strlen就是根據encoding不一樣的編碼,來分別計算..好像能夠計算世界大部分不一樣的編碼格式
相比 mb_strlen ,strlen就簡單的多多的多的多了
開始沒有找到 strlen定義的地方,
它在 Zend/zend_builtin_functions.c裏定義的

  
  
  
  
   
   
   
   ZEND_FUNCTION(strlen) 
   
   
   
   { 
   
   
   
           char *s1; 
   
   
   
           int s1_len; 
   
   
   
     
   
   
   
           if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "s", &s1, &s1_len) == FAILURE) { 
   
   
   
                   return; 
   
   
   
           }     
   
   
   
     
   
   
   
           RETVAL_LONG(s1_len); 
   
   
   
   }