String的長度限制java
想要搞清楚這個問題,首先咱們須要翻閱一下String的源碼,看下其中是否有關於長度的限制或者定義。數組
String類中有不少重載的構造函數,其中有幾個是支持用戶傳入length來執行長度的:函數
public String(byte bytes[], int offset, int length)
能夠看到,這裏面的參數length是使用int類型定義的,那麼也就是說,String定義的時候,最大支持的長度就是int的最大範圍值。this
根據Integer類的定義,java.lang.Integer#MAX_VALUE
的最大值是2^31 - 1;編碼
那麼,咱們是否是就能夠認爲String能支持的最大長度就是這個值了呢?debug
其實並非,這個值只是在運行期,咱們構造String的時候能夠支持的一個最大長度,而實際上,在運行期,定義字符串的時候也是有長度限制的。code
如如下代碼:視頻
String s = "11111...1111";//其中有10萬個字符"1"
當咱們使用如上形式定義一個字符串的時候,當咱們執行javac編譯時,是會拋出異常的,提示以下:對象
錯誤: 常量字符串過長
那麼,明明String的構造函數指定的長度是能夠支持2147483647(2^31 - 1)的,爲何像以上形式定義的時候沒法編譯呢?索引
其實,形如String s = "xxx";
定義String的時候,xxx被咱們稱之爲字面量,這種字面量在編譯以後會以常量的形式進入到Class常量池。
那麼問題就來了,由於要進入常量池,就要遵照常量池的有關規定。
常量池限制
咱們知道,javac是將Java文件編譯成class文件的一個命令,那麼在Class文件生成過程當中,就須要遵照必定的格式。
根據常量池的定義,CONSTANT_String_info 用於表示 java.lang.String 類型的常量對象,格式以下:
CONSTANT_String_info { u1 tag; u2 string_index; }
其中,string_index 項的值必須是對常量池的有效索引, 常量池在該索引處的項必須是 CONSTANT_Utf8_info 結構,表示一組 Unicode 碼點序列,這組 Unicode 碼點序列最終會被初始化爲一個 String 對象。
CONSTANT_Utf8_info 結構用於表示字符串常量的值:
CONSTANT_Utf8_info { u1 tag; u2 length; u1 bytes[length]; }
其中,length則指明瞭 bytes[]數組的長度,其類型爲u2,
經過翻閱《規範》,咱們能夠獲悉。u2表示兩個字節的無符號數,那麼1個字節有8位,2個字節就有16位。
16位無符號數可表示的最大值位2^16 - 1 = 65535。
也就是說,Class文件中常量池的格式規定了,其字符串常量的長度不能超過65535。
那麼,咱們嘗試使用如下方式定義字符串:
String s = "11111...1111";//其中有65535萬個字符"1"
嘗試使用javac編譯,一樣會獲得"錯誤: 常量字符串過長",那麼緣由是什麼呢?
其實,這個緣由在javac的代碼中是能夠找到的,在Gen類中有以下代碼:
private void checkStringConstant(DiagnosticPosition var1, Object var2) { if (this.nerrs == 0 && var2 != null && var2 instanceof String && ((String)var2).length() >= 65535) { this.log.error(var1, "limit.string", new Object[0]);++this.nerrs; } }
代碼中能夠看出,當參數類型爲String,而且長度大於等於65535的時候,就會致使編譯失敗。
這個地方你們能夠嘗試着debug一下javac的編譯過程(視頻中有對java的編譯過程進行debug的方法),也能夠發現這個地方會報錯。
若是咱們嘗試以65534個字符定義字符串,則會發現能夠正常編譯。
其實,關於這個值,在《Java虛擬機規範》也有過說明:
if the Java Virtual Machine code for a method is exactly 65535 bytes long and ends with an instruction that is 1 byte long, then that instruction cannot be protected by an exception handler. A compiler writer can work around this bug by limiting the maximum size of the generated Java Virtual Machine code for any method, instance initialization method, or static initializer (the size of any code array) to 65534 bytes
運行期限制
上面提到的這種String長度的限制是編譯期的限制,也就是使用String s= 「」;這種字面值方式定義的時候纔會有的限制。
那麼,String在運行期有沒有限制呢,答案是有的,就是咱們前文提到的那個Integer.MAX_VALUE ,這個值約等於4G,在運行期,若是String的長度超過這個範圍,就可能會拋出異常。(在jdk 1.9以前)
int 是一個 32 位變量類型,取正數部分來算的話,他們最長能夠有
2^31-1 =2147483647 個 16-bit Unicodecharacter 2147483647 * 16 = 34359738352 位 34359738352 / 8 = 4294967294 (Byte) 4294967294 / 1024 = 4194303.998046875 (KB) 4194303.998046875 / 1024 = 4095.9999980926513671875 (MB) 4095.9999980926513671875 / 1024 = 3.99999999813735485076904296875 (GB)
有近 4G 的容量。
不少人會有疑惑,編譯的時候最大長度都要求小於65535了,運行期怎麼會出現大於65535的狀況呢。這其實很常見,如如下代碼:
String s = ""; for (int i = 0; i <100000 ; i++) { s+="i"; }
獲得的字符串長度就有10萬,另外我以前在實際應用中遇到過這個問題。
以前一次系統對接,須要傳輸高清圖片,約定的傳輸方式是對方將圖片轉成BASE6編碼,咱們接收到以後再轉成圖片。
在將BASE64編碼後的內容賦值給字符串的時候就拋了異常。
總結
字符串有長度限制,在編譯期,要求字符串常量池中的常量不能超過65535,而且在javac執行過程當中控制了最大值爲65534。
在運行期,長度不能超過Int的範圍,不然會拋異常。