你說你是高工,String有多長也不知道?

點擊上方「IT爛筆頭」,選擇「置頂公衆號」javascript

第一時間獲取 IT 技術乾貨!java



閱讀文本大概須要 5 分鐘。android

1web

String基礎數組


public final class String

String類是由final修飾的,因此是不能被繼承的,咱們在對字符串進行比較時,通常是指望對比其中的字符串是否同樣,因此這裏咱們不能用"=="進行字符串的比較,而是須要使用"equals()"方法②,由於使用==進行比較時,是比較的對象,只有指向同一個字符串對象的纔會是true,不然就算字符串值相同也可能出現不相等的狀況。微信

private final char value[];

String的值其實是以char的數組存儲的,而且是final的,因此字符串對象是不可變的③,可是咱們能夠看到字符串的一些操做會誤導咱們,好比使用:數據結構

String a = "aaaa";a += "bbbb";

其實這個時候a已經指向新的對象地址。
到這裏爲止,初級工程師都應該很熟悉。app

2編輯器

String的形式測試


在思考String能有多長以前,咱們先看下String定義的不一樣形式。

// 第一種String s = "aaaaaaaaaaaaa...";
// 第二種byte[] a = readFromFile(new File("someLargeText.txt"));String superLongString = new String(a);

那麼既然思考String的長度,那就應該想一想爲何會有長度的限制,難道我在編譯器裏定義一個String時,有多長不是隨便咱們本身輸入嗎?還有上面兩種方式有什麼區別呢?


2.1 字面量的形式


對於第一種是字面量,Java將其存在常量池中,在Java1.6的版本中是在棧的常量池中,在1.七、1.8版本中將其放到了堆的常量池中。那就是說第一種這種方式中是受到常量池大小的約束了,不錯,是會受到常量池的約束,可是在運行在JVM以前,被編譯成字節碼時就已經有了限制。


如上圖所示,編譯後的length的類型爲u2(無符號16位),也就是講length的最大值爲2^16-1 = 65535,那就是講咱們的上面的字符串s長度按MUTF-8(字節碼中的編碼)編碼能夠存儲65535個字節。
到這裏爲止,若是你是中級工程師,知道這麼多已經很不錯了。


但是事實上呢,咱們實驗後發現只能存儲65534個字節,這是爲何呢?網上有不少猜測,大部分不正確。咱們扒一下Java編譯器的源碼,會發現:

這下你們明白了吧,Java編譯器在檢查字符串常量時,判斷的是長度只有<65535纔會正常,不然報錯。看起來像是編譯器的Bug。若是你會修改編譯器源碼,你將上面的判斷條件改爲<=65535,這樣你存一個65535個字符"a"的字符串就不會編譯出錯了。


咱們知道上面咱們是用拉丁字符"a"來測試的,a使用UTF-8編碼恰好是一個字節,因此能夠存儲65534個,那若是存漢字呢,好比咱們常常看到的"燙",它使用TF-8編碼後佔用三個字節,那麼也就是說咱們能夠這樣定義:

// 按照咱們剛纔的分析,應該能夠存儲65534/3個"燙"漢字String s = "燙燙燙...燙燙";

那咱們嘗試存儲65535/3個漢字"燙"試試呢?結果是能夠的,並無報錯。誒?這是爲何呢?咱們繼續扒下編譯器的源碼看到:

編譯處理漢字這種的呢,他判斷的邏輯不同。條件是>65535纔會拋異常,也就是小於等於65535是正常的。頗有意思,寫Java編譯器的人也頗有意思哈。


2.1 new的形式


對於第二種形式的,很顯然只有在運行時受限於Java虛擬機了。咱們知道String最後保存在char數組中,Java虛擬機是如何作的呢?簡單參考下源碼:

虛擬機指令newarray [int],size是以整形定義的,因此它的限制其實就是int的最大值,可是在有一些虛擬機上會保留一些頭信息在數組中,因此就變成了Integer.MAX_VALUE - 8個char;


到這裏呢,基本上你就有了高級工程師的思考高度了。

3

總結


3.1 字面量的形式


  • 受字節碼數據結構的限制,字符串使用MUTF-8編碼後字節數不超過65535

  • 拉丁字符,受Java編譯器代碼限制,最多隻能存儲65534個字節

  • 非拉丁字符,最多存儲65535個字節


3.2 new的形式

  • 受虛擬機指令限制,字符數理論上線是Integer.MAX_VALUE,可是實際上有保留頭信息的部分,因此會略小

  • 受堆內存的限制,若是堆內存很小,那就不能超過堆內存的限制


看起來本文有點過於追求細節了,有點孔乙己的回字有幾種寫法的意思。實際則否則,搞技術就是要把握好細節,才能寫出優秀的代碼,才能成爲高階的工程師而不是碼農。



推薦閱讀:

你說你是高工,char都沒搞明白?!


Python實現微信防撤回



THANDKS

- End -

本文分享自微信公衆號 - IT爛筆頭(nj_android)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索