utf-8 編碼的 emoji 表情或者某些特殊字符佔用 4 個字節。utf-8 編碼的經常使用中文字符佔用 3 個字節。sql
三個 PHP 內置函數:數據庫
mixed mb_strlen ( string $str [, string $encoding = mb_internal_encoding() ] ) // 返回具備 encoding 編碼的字符串 str 包含的字符數。 多字節的字符被計爲 1。 // 若是給定的 encoding 無效則返回 FALSE。
string mb_substr ( string $str , int $start [, int $length = NULL [, string $encoding = mb_internal_encoding() ]] ) // 根據字符數執行一個多字節安全的 substr() 操做。 位置是從 str 的開始位置進行計數。 第一個字符的位置是 0。第二個字符的位置是 1。 // mb_substr() 函數根據 start 和 length 參數返回 str 中指定的部分。
int strlen ( string $string ) // 返回給定的字符串 string 的長度。
函數以下:安全
function haveEmojiChar($str) { $mbLen = mb_strlen($str); $strArr = []; for ($i = 0; $i < $mbLen; $i++) { $strArr[] = mb_substr($str, $i, 1, 'utf-8'); if (strlen($strArr[$i]) >= 4) { return true; } } return false; }
函數以下:函數
function removeEmojiChar($str) { $mbLen = mb_strlen($str); $strArr = []; for ($i = 0; $i < $mbLen; $i++) { $mbSubstr = mb_substr($str, $i, 1, 'utf-8'); if (strlen($mbSubstr) >= 4) { continue; } $strArr[] = $mbSubstr; } return implode('', $strArr); }