linux c/c++ 判斷是否爲中文(不包括中文符號,非正則)

在linux環境下,c/c++默認的中文編碼爲UTF-8,中文的unicode編碼是雙字節的編碼。有趣的是,windows環境下中文utf-8的編碼爲兩個字節,而linux環境下UTF-8的爲三個字節,而匹配中文使用正則表達式爲linux [\u4e00-\u9fa5] 不管你是怎麼搜索,百度出來匹配中文的正則基本都是上述的表達式。所以linux環境下3字節的UTF-8也用這個正則來匹配顯然是不正
相關文章
相關標籤/搜索