在PHP裏 有兩個計算 字符串個數的函數php
一個是 strlen,一個是mb_strlen;
先來看看幫助手冊的定義ide
strlen — 獲取字符串長度
int strlen ( string $string )
返回給定的字符串 string 的長度。函數
int mb_strlen ( string $str [, string $encoding ] )ui
返回給定的字符串 string 的長度。編碼
encoding參數爲字符編碼。若是省略,則使用內部字符編碼。spa
這麼看 除了mb_strlen能夠傳遞一個 字符編碼好像沒有其餘區別
寫一個PHP程序來看看字符串
- $a="我是s斯t人";
- echo strlen($a);
- echo "<br>";
- echo mb_strlen($a,'utf8');
輸出結果
14
6
很明顯 strlen對於中文來說,每一個漢字佔三個字節,$a的字節數就是14,說明 strlen計算的是字符串所佔的字節數
在mb_strlen計算時,若是encoding設置爲utf8,那麼,中文將佔一個字節 那麼$a就是6get
須要注意的是 mb_strlen並非PHP內置函數,須要修改php.ini,開啓 php_mbstring
好了..
咱們下面就深刻到PHP內核源碼去看看兩個函數的不一樣.
先看mb_strlen的定義源碼
- PHP_FUNCTION(mb_strlen)
- {
- int n;
- mbfl_string string;
- char *enc_name = NULL; int enc_name_len;
- mbfl_string_init(&string);
- if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "s|s", (char **)&string.val, &string.len, &enc_name, &enc_name_len) == FAILURE) {
- RETURN_FALSE;
- }
- string.no_language = MBSTRG(language);
- if (enc_name == NULL) { string.no_encoding = MBSTRG(current_internal_encoding);
- } else {
- string.no_encoding = mbfl_name2no_encoding(enc_name);
- if (string.no_encoding == mbfl_no_encoding_invalid) {
- php_error_docref(NULL TSRMLS_CC, E_WARNING, "Unknown encoding \"%s\"", enc_name); RETURN_FALSE;
- }
- }
- n = mbfl_strlen(&string);
- if (n >= 0) {
- RETVAL_LONG(n);
- } else {
- RETVAL_FALSE;
- }
- }
mbfl_string 是一個結構體string
- typedef struct _mbfl_string {
- enum mbfl_no_language no_language;
- enum mbfl_no_encoding no_encoding;
- unsigned char *val; unsigned int len;
- } mbfl_string;
看定義就知道,這兩個保存了當前字符串的語言,編碼,保存的值和長度
mbfl_string_init(&string);
這個函數是初始化string;
if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, 「s|s」, (char **)&string.val, &string.len, &enc_name, &enc_name_len) == FAILURE) {
RETURN_FALSE;
}
這裏接收傳遞過來的兩個參數,也就是前面看到的 string和encoding,
enc_name保存編碼,enc_name_len保存編碼名字的長度
string.no_language = MBSTRG(language);
展開後
#define MBSTRG(v) (mbstring_globals.v)
這裏將mbstring的language賦給string的no_language;
- if (enc_name == NULL) {//若是沒有手動設置編碼,那麼就使用PHP內置的編碼 這個時候就與strlen相同
- string.no_encoding = MBSTRG(current_internal_encoding);
- }else {
- //檢查是不是有效的編碼
- string.no_encoding = mbfl_name2no_encoding(enc_name);
- //若是傳遞來的編碼無效 拋出異常
- if (string.no_encoding == mbfl_no_encoding_invalid) {
- php_error_docref(NULL TSRMLS_CC, E_WARNING, "Unknown encoding \"%s\"", enc_name);
- RETURN_FALSE;
- }
- }
- n = mbfl_strlen(&string);//計算字符串的長度
原來這個函數裏只是驗證編碼
真正計算長度的函數是mbfl_strlen
- int mbfl_strlen(mbfl_string *string)
- {
- int len, n, m, k;
- unsigned char *p;
- const unsigned char *mbtab;
- const mbfl_encoding *encoding;
- //驗證編碼是否有效
- encoding = mbfl_no2encoding(string->no_encoding);
- if (encoding == NULL || string == NULL) {
- return -1;
- }
- len = 0;
- //下面是幾種不一樣的
- if (encoding->flag & MBFL_ENCTYPE_SBCS) {//是單字節字符集 直接返回
- len = string->len;
- } else if (encoding->flag & (MBFL_ENCTYPE_WCS2BE | MBFL_ENCTYPE_WCS2LE)) { //寬字節每一個字佔2位
- len = string->len/2;
- } else if (encoding->flag & (MBFL_ENCTYPE_WCS4BE | MBFL_ENCTYPE_WCS4LE)) {//寬字節每一個字佔4位
- len = string->len/4;
- } else if (encoding->mblen_table != NULL) { //mblen_table是作什麼的沒搞清楚,望賜教
- mbtab = encoding->mblen_table;
- n = 0;
- p = string->val;
- k = string->len;
- /* count */
- if (p != NULL) {
- while (n < k) {
- m = mbtab[*p];
- n += m;
- p += m;
- len++;
- };
- }
- } else { //其餘編碼 轉換成mbfl_no_encoding_wchar再計算
- /* wchar filter */
- mbfl_convert_filter *filter = mbfl_convert_filter_new(
- string->no_encoding,
- mbfl_no_encoding_wchar,
- filter_count_output, 0, &len);
- if (filter == NULL) {
- return -1;
- }
- /* count */
- n = string->len;
- p = string->val;
- if (p != NULL) {
- while (n > 0) {
- (*filter->filter_function)(*p++, filter);
- n--;
- }
- }
- mbfl_convert_filter_delete(filter);
- }
- return len;
- }
mb_strlen就是根據encoding不一樣的編碼,來分別計算..好像能夠計算世界大部分不一樣的編碼格式
相比 mb_strlen ,strlen就簡單的多多的多的多了
開始 沒有找到 strlen定義的地方,
它在 Zend/zend_builtin_functions.c裏定義的
- ZEND_FUNCTION(strlen)
- {
- char *s1;
- int s1_len;
- if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "s", &s1, &s1_len) == FAILURE) {
- return;
- }
- RETVAL_LONG(s1_len);
- }
很簡單 只是獲取長度而已…
這下 他們倆的區別就很清楚了…