C# - char類型的一些介紹

Char

C#裏面的char,其實就是System.Char類型的別名,它表明一個Unicode字符(是這樣嗎?),佔用兩個字節。spa

例如:char c = ‘A’;3d

char佔用兩個字節,也就是16位,其實本質上char其實就是16位的無符號整型數值,範圍是0到65535,也就是和無符號short的範圍是同樣的。代理

 

轉義字符

有一些字符沒法經過字面的意思來進行解釋,這時候就可使用轉義字符。code

轉義字符是以 / 開始,後邊跟着一個有特殊意義的字符。blog

例如:字符串

char newLine = '\n'; 這個表示換行io

char backSlash = '\\'; 這個就表示 \class

 

轉義字符的列表以下:變量

 

還有\u(\x)這兩個轉義字符可讓你經過4位16進制的形式來表示任意的Unicode字符,例如:擴展

char copyrightSymbol = '\u00A9'; // ©
char omegaSymbol = '\u03A9'; // Ω
char newLine = '\u000A'; // 換行

轉換

char類型的變量能夠隱式的轉換到可容納無符號short類型的數值類型,例如:

 

字符擴展

char只能表明一個Unicode字符, 其實這句話不太準確。

咱們知道Unicode裏 65 表明着字母 A,但其實65是A的Unicode代碼點,一般是這樣來表示的 U+0041,16進制的41就是10進制的65。

 

而看這個例子,德語裏面有個字符:ß,它的UniCode是 U+00DF,但就其自己而言,ß 不是一個字母,ß被認爲等價於ss(也就是兩個s),例如fußball就至關於fussball。

而用在字符/字符串比較的時候,就不能夠把ß看成一個字符來處理,而是把ß=ss。

而ß所對應的U+00DF這個代碼點就是字符擴展(Character expansion)的一個例子,若是想正確的比較字符/串,那麼這個代碼點就必須先轉化爲其它的多個代碼點,這裏就是 U+00DF -> U+0073 + U+0073,也就是ß -> ss,記住,這只是用於比較,而不是展現。

 

字符代理

字符代理(char surrogates),和字符擴展正好相反。

字符擴展是指,一個字符表明了多個實際的字符而字符代理呢,就是使用兩個char的實例來表示一個實際的字符

字符代理之因此存在,是由於它的範圍過小了(0-65535),因此根本沒法表明世界上這麼多語言的字符。實際上Unicode的代碼點是從0到1114111(0x10FFFF),因此16位的存儲遠遠不夠用。

正是由於這點,Unicode UTF16有一個能夠表示全部字符的體系,就是使用兩個連續的16位數值來表示,這就叫作代理對(surrogate pairs)。

在這兩個連續的16位數值裏,第一個數的範圍是U+D800到U+DBFF(55296到56319),因此若是您在解析字符/串的時候,解析出來的數值正好落在這個範圍裏,那麼你就須要把這個char和它後邊的char連在一塊兒進行解析,才能得出真正要表示的字符。

從術語上講,第一個16位數叫作High Surrogate(高代理項),第二個數叫作Low Surrogate(低代理項)。

 

例如:𝄞 它的Unicode 代碼點是 U+1D11E,它包含一個High Surrogate:U+D834 和一個Low Surrogate:U+DD1E

 

合併字符

此外有一些代碼點還會修改前一個字符,好比說 ä 這個字符,它能夠用U+00E4來表示。

而我也可使用 a +  ̈  (U+0061 + U+0308)的形式來表示該字符,在這裏U+0308就表示兩個點,它會修改前一個字符。

在Unicode的標準中,後邊這個字符就叫作 Combining diaeresis(組合用分音符?)

而在實際中字符/串比較的時候,你須要把這兩個字符合並看成U+00E4才能夠。

 

其它

char有ToUpper()和ToLower()兩個方法能夠變換大小寫,它們首先會遵循用戶的locale(區域設置),可是這就有可能引發一個bug:

char.ToUpper ('i') == 'I'

這個表達式在土耳其語裏面會返回false。

在土耳其語裏面 i 被 ToUpper()以後返回的是 İ (看起來像大寫的I上面還有一個點),因此與大寫的 I 不等。

而char也提供了不依賴用戶區域的版本:

 

  • char.ToUpperInvariant ('i')
  • char.ToUpper ('i', CultureInfo.InvariantCulture) 

這兩種寫法均可以。

 

另一點須要注意的是,從整型轉換到char類型後,頗有可能變成一個超出了Unicode範圍的字符,這樣的字符就是不合理的。

爲了驗證字符是否合理,咱們可使用 char.GetUnicodeCategory()方法,若是結果是UnicodeCategory.OtherNotAssigned,那麼該字符就不合理。

相關文章
相關標籤/搜索