golang內置類型有rune類型和byte類型。golang
rune類型的底層類型是int32類型,而byte類型的底層類型是int8類型,這決定了rune能比byte表達更多的數。數組
在unicode中,一箇中文佔兩個字節,utf-8中一箇中文佔三個字節,golang默認的編碼是utf-8編碼,所以默認一箇中文佔三個字節,可是golang中的字符串底層其實是一個byte數組。所以可能會出現下面這種奇怪的狀況編碼
package main import ( "fmt" ) func main() { str := "世界" fmt.Println(len(str)) //6 }
咱們指望獲得的結果應該是4,緣由是golang中的string底層是由一個byte數組實現的,而golang默認的編碼是utf-8,所以在這裏一箇中文字符佔3個字節,因此得到的長度是6,想要得到咱們想要的結果也很簡單,golang中的unicode/utf8包提供了用utf-8獲取長度的方法
spa
package main import ( "fmt" "unicode/utf8" ) func main() { str := "世界" fmt.Println(utf8.RuneCountInString(str))//2 }
結果是2code
上面說了byte類型其實是一個int8類型,int8適合表達ascii編碼的字符,而int32能夠表達更多的數,能夠更容易的處理unicode字符,所以,咱們能夠經過rune類型來處理unicode字符blog
package main import ( "fmt" ) func main() { str := "hello 世界" str2 := []rune(str) fmt.Println(len(str2)) //8 }
這裏將會申請一塊內存,而後將str的內容複製到這塊內存,實際上這塊內存是一個rune類型的切片,而str2拿到的是一個rune類型的切片的引用,咱們能夠很容易的證實這是一個引用內存
package main
import (
"fmt"
)
func main() {
str := "hello 世界"
str2 := []rune(str)
t := str2
t[0] = 'w'
fmt.Println(string(str2)) //「wello 世界」
fmt.Println(string(str)) //「hello 世界」
}
經過把str2賦值給t,t上改變的數據,其實是改變的是t指向的rune切片,所以,str2也會跟着改變,而str不會改變。utf-8
對於字符串,看一下如何遍歷吧,也許你會以爲遍歷垂手可得,然而剛接觸golang的時候,若是這樣遍歷字符串,那麼將是很是糟糕的ci
package main import ( "fmt" ) func main() { str := "hello 世界" for i := 0; i < len(str); i++ { fmt.Println(string(str[i])) } }
輸出:unicode
h e l l o ä ¸ ç
如何解決這個問題呢?
第一個解決方法是用range循環
package main import ( "fmt" ) func main() { str := "hello 世界" for _, v := range str { fmt.Println(string(v)) } }
輸出
h e l l o 世 界
緣由是range會隱式的unicode解碼
第二個方法是將str 轉換爲rune類型的切片
package main import ( "fmt" ) func main() { str := "hello 世界" str2 := []rune(str) for i := 0; i < len(str2); i++ { fmt.Println(string(str2[i])) } }
輸出
h e l l o 世 界
除開rune和byte底層的類型的區別,在使用上,rune能處理一切的字符,而byte僅僅侷限在ascii