最近在處理遊戲敏感詞之類的東西,爲了增強屏蔽處理,因此須要過濾掉字符串中的除漢字以外的是其餘東西如數字,符號,英文字母等。php
首先我查閱資料並寫了個函數:c++
示例:返回輸入字符串中漢字的個數:數組
std::string StrWithOutSymbol(const std::string &source) { string sourceWithOutSymbol; int i = 0; while (source[i] != 0) { if (source[i] & 0x80 ) { sourceWithOutSymbol += source[i]; sourceWithOutSymbol += source[i + 1]; i += 2; else { i ++; } } return
sourceWithOutSymbol;
}
80對應的二進制代碼爲1000 0000,最高位爲一,表明漢字漢字編碼格式通稱爲10格式一個漢字佔2字節,但只表明一個字符函數
"Windows中,中文簡體字符集的編碼是同時用1個字節和2個字節來表示的。當高位是0x00~0x7f時,爲一個字節,高位爲0x80以上時用2個字節表示"編碼
當你發現一個字節的內容大於0x7f,那它確定是個(跟另一個字節拼湊成一個)漢字,如何判斷確定大於0x7f呢?
0x7f(1111111)後面一個數就是0x80(10000000),因此想要大於0x7f,這個字節的最高位都確定是1,咱們只須要判斷這個最高位是否爲1就好了。lua
判斷方法:
位與(相同的位都是1的才爲1,不然爲0):
如:要判斷一個數的第三位是不是1,只要跟4(100)位與,判斷一個數的第2位是否爲1就跟2(10)位與.
同理判斷第八位是否爲1只要跟(10000000)也就是0x80位與了.spa
這裏爲何不用>0x7f?php可能還行,但在其餘強類型語言裏面,1個字節的最高位用來標示負數,一個負數確定不可能大於0x7f(最大的整數)code
再舉個例子:
a的assic碼是97(1100001)
A的assic碼是65(1000001)blog
b的assic碼是98(1100010)
B的assic碼是66(1000010)遊戲
發現一個規律:一個a-z的字母,只要是小寫字母,第六位確定是1,咱們能夠用這個來判斷大小寫:
這時候只要跟用以個字母跟0x20(100000)來位與判斷:
if(ord($a)&0x20){
//大寫
}
如何把全部字母改爲大寫?第六位的1改爲0就好了:
$a='a';
$a = chr(ord($a)&(~0x20));
echo $a;
而後我信心滿滿的吧這個函數加入到項目中去,點擊運行,輸入中文進行檢查,當!項目報錯了????數組越界????
這是爲何,我又定位到報錯的地方,發現我使用的cocos-lua,在向c++傳遞字符串的時候傳進來的字符串是以UTF-8來進行編碼的,我又去找UIF-8的編碼規則發現
而我以前的是按照GBK編碼進行操做的,GBK每一箇中文字符只佔兩個字節,而utf-8的話中文可能佔3個字節,四個字節,甚至是五個六個,因此用剛纔那樣的函數就會有越界的狀況發生,因此對用UTF-8進行編碼的字符串,就須要進行另外的處理,因此我寫了一個新函數:
對UTF-8編碼的字符串進行中文篩選的函數:
std::string censorStrWithOutSymbol(const std::string &source) { string sourceWithOutSymbol; int i = 0; while (source[i] != 0) { if (source[i] & 0x80 && source[i] & 0x40 && source[i] & 0x20) { int byteCount = 0; if (source[i] & 0x10) { byteCount = 4; } else { byteCount = 3; } for (int a = 0; a < byteCount; a++) { sourceWithOutSymbol += source[i]; i++; } } else if (source[i] & 0x80 && source[i] & 0x40) { i += 2; } else { i += 1; } } return sourceWithOutSymbol; }
點擊運行,成功了!舒服。