深刻理解Java：String

時間 2019-11-05

標籤深刻理解 java string 欄目 Java 简体版

原文原文鏈接

在講解String以前，咱們先了解一下Java的內存結構。java

1、Java內存模型sql

按照官方的說法：Java 虛擬機具備一個堆，堆是運行時數據區域，全部類實例和數組的內存均今後處分配。數組

JVM主要管理兩種類型內存：堆和非堆，堆內存（Heap Memory）是在 Java 虛擬機啓動時建立，非堆內存(Non-heap Memory)是在JVM堆以外的內存。

簡單來講，非堆包含方法區、JVM內部處理或優化所需的內存（如 JITCompiler，Just-in-time Compiler，即時編譯後的代碼緩存）、每一個類結構（如運行時常數池、字段和方法數據）以及方法和構造方法的代碼。緩存

Java的堆是一個運行時數據區,類的(對象從中分配空間。這些對象經過new、newarray、 anewarray和multianewarray等指令創建，它們不須要程序代碼來顯式的釋放。堆是由垃圾回收來負責的，堆的優點是能夠動態地分配內存大小，生存期也沒必要事先告訴編譯器，由於它是在運行時動態分配內存的，Java的垃圾收集器會自動收走這些再也不使用的數據。但缺點是，因爲要在運行時動態分配內存，存取速度較慢。

　　棧的優點是，存取速度比堆要快，僅次於寄存器，棧數據能夠共享。但缺點是，存在棧中的數據大小與生存期必須是肯定的，缺少靈活性。棧中主要存放一些基本類型的變量數據（int, short, long, byte, float, double, boolean, char）和對象句柄(引用)。安全

虛擬機必須爲每一個被裝載的類型維護一個常量池。常量池就是該類型所用到常量的一個有序集合，包括直接常量（string,integer和 floating point常量）和對其餘類型，字段和方法的符號引用。

　　對於String常量，它的值是在常量池中的。而JVM中的常量池在內存當中是以表的形式存在的，對於String類型，有一張固定長度的CONSTANT_String_info表用來存儲文字字符串值，注意：該表只存儲文字字符串值，不存儲符號引用。說到這裏，對常量池中的字符串值的存儲位置應該有一個比較明瞭的理解了。在程序執行的時候,常量池會儲存在Method Area,而不是堆中。常量池中保存着不少String對象; 而且能夠被共享使用，所以它提升了效率多線程

具體關於JVM和內存等知識請參考：架構

JVM 基礎知識併發

Java 內存模型及GC原理app

2、案例解析jvm

複製代碼
複製代碼
public static void main(String[] args) {
/**

情景一：字符串池
JAVA虛擬機(JVM)中存在着一個字符串池，其中保存着不少String對象;
而且能夠被共享使用，所以它提升了效率。
因爲String類是final的，它的值一經建立就不可改變。
字符串池由String類維護，咱們能夠調用intern()方法來訪問字符串池。
*/
String s1 = "abc";
//↑ 在字符串池建立了一個對象
String s2 = "abc";
//↑ 字符串pool已經存在對象「abc」(共享),因此建立0個對象，累計建立一個對象
System.out.println("s1 == s2 : "+(s1==s2));
//↑ true 指向同一個對象，
System.out.println("s1.equals(s2) : " + (s1.equals(s2)));
//↑ true 值相等
//↑------------------------------------------------------over
/**
情景二：關於new String("")

*/  
String s3 = new String("abc");  
//↑ 建立了兩個對象，一個存放在字符串池中，一個存在與堆區中；  
//↑ 還有一個對象引用s3存放在棧中  
String s4 = new String("abc");  
//↑ 字符串池中已經存在「abc」對象，因此只在堆中建立了一個對象  
System.out.println("s3 == s4 : "+(s3==s4));  
//↑false   s3和s4棧區的地址不一樣，指向堆區的不一樣地址；  
System.out.println("s3.equals(s4) : "+(s3.equals(s4)));  
//↑true  s3和s4的值相同  
System.out.println("s1 == s3 : "+(s1==s3));  
//↑false 存放的地區多不一樣，一個棧區，一個堆區  
System.out.println("s1.equals(s3) : "+(s1.equals(s3)));  
//↑true  值相同  
//↑------------------------------------------------------over  
/**

情景三：
因爲常量的值在編譯的時候就被肯定(優化)了。
在這裏，"ab"和"cd"都是常量，所以變量str3的值在編譯時就能夠肯定。
這行代碼編譯後的效果等同於： String str3 = "abcd";
*/
String str1 = "ab" + "cd"; //1個對象
String str11 = "abcd";
System.out.println("str1 = str11 : "+ (str1 == str11));
//↑------------------------------------------------------over
/**
情景四：
局部變量str2,str3存儲的是存儲兩個拘留字符串對象(intern字符串對象)的地址。
第三行代碼原理(str2+str3)：
運行期JVM首先會在堆中建立一個StringBuilder類，
同時用str2指向的拘留字符串對象完成初始化，
而後調用append方法完成對str3所指向的拘留字符串的合併，
接着調用StringBuilder的toString()方法在堆中建立一個String對象，
最後將剛生成的String對象的堆地址存放在局部變量str3中。
而str5存儲的是字符串池中"abcd"所對應的拘留字符串對象的地址。
str4與str5地址固然不同了。
內存中實際上有五個字符串對象：
三個拘留字符串對象、一個String對象和一個StringBuilder對象。
*/
String str2 = "ab"; //1個對象
String str3 = "cd"; //1個對象
String str4 = str2+str3;
String str5 = "abcd";
System.out.println("str4 = str5 : " + (str4==str5)); // false
//↑------------------------------------------------------over
/**
情景五：
JAVA編譯器對string + 基本類型/常量是當成常量表達式直接求值來優化的。
運行期的兩個string相加，會產生新的對象的，存儲在堆(heap)中
*/
String str6 = "b";
String str7 = "a" + str6;
String str67 = "ab";
System.out.println("str7 = str67 : "+ (str7 == str67));
//↑str6爲變量，在運行期纔會被解析。
final String str8 = "b";
String str9 = "a" + str8;
String str89 = "ab";
System.out.println("str9 = str89 : "+ (str9 == str89));
//↑str8爲常量變量，編譯期會被優化
//↑------------------------------------------------------over
}
複製代碼
複製代碼

總結：

1.String類初始化後是不可變的(immutable)

這一說又要說不少，你們只要知道String的實例一旦生成就不會再改變了，好比說：String str=」kv」+」ill」+」「+」ans」; 就是有4個字符串常量，首先」kv」和」ill」生成了」kvill」存在內存中，而後」kvill」又和」」生成「kvill 「存在內存中，最後又和生成了」kvill ans」;並把這個字符串的地址賦給了str,就是由於String的」不可變」產生了不少臨時變量，這也就是爲何建議用StringBuffer的原因了，由於StringBuffer是可改變的。

　　下面是一些String相關的常見問題：

　　String中的final用法和理解
　　final StringBuffer a = new StringBuffer("111");
　　final StringBuffer b = new StringBuffer("222");
　　a=b;//此句編譯不經過 final StringBuffer a = new StringBuffer("111");
　　a.append("222");// 編譯經過

　　可見，final只對引用的"值"(即內存地址)有效，它迫使引用只能指向初始指向的那個對象，改變它的指向會致使編譯期錯誤。至於它所指向的對象的變化，final是不負責的。

2.代碼中的字符串常量在編譯的過程當中收集並放在class文件的常量區中，如"123"、"123"+"456"等，含有變量的表達式不會收錄，如"123"+a。

3.JVM在加載類的時候，根據常量區中的字符串生成常量池，每一個字符序列如"123"會生成一個實例放在常量池裏，這個實例是不在堆裏的，也不會被GC，這個實例的value屬性從源碼的構造函數看應該是用new建立數組置入123的，因此按個人理解此時value存放的字符數組地址是在堆裏，若是有誤的話歡迎你們指正。

4.使用String不必定建立對象

在執行到雙引號包含字符串的語句時，如String a = "123"，JVM會先到常量池裏查找，若是有的話返回常量池裏的這個實例的引用，不然的話建立一個新實例並置入常量池裏。若是是 String a = "123" + b (假設b是"456")，前半部分"123"仍是走常量池的路線，可是這個+操做符實際上是轉換成[SringBuffer].Appad()來實現的，因此最終a獲得是一個新的實例引用，並且a的value存放的是一個新申請的字符數組內存空間的地址(存放着"123456")，而此時"123456"在常量池中是未必存在的。

要注意: 咱們在使用諸如String str = "abc"；的格式定義類時，老是想固然地認爲，建立了String類的對象str。擔憂陷阱！對象可能並無被建立！而可能只是指向一個先前已經建立的對象。只有經過new()方法才能保證每次都建立一個新的對象

5.使用new String，必定建立對象

在執行String a = new String("123")的時候，首先走常量池的路線取到一個實例的引用，而後在堆上建立一個新的String實例，走如下構造函數給value屬性賦值，而後把實例引用賦值給a：

複製代碼
複製代碼
public String(String original) {
int size = original.count;
char[] originalValue = original.value;
char[] v;
if (originalValue.length > size) {
// The array representing the String is bigger than the new
// String itself. Perhaps this constructor is being called
// in order to trim the baggage, so make a copy of the array.
int off = original.offset;
v = Arrays.copyOfRange(originalValue, off, off+size);
} else {
// The array representing the String is the same
// size as the String, so no point in making a copy.
v = originalValue;
}
this.offset = 0;
this.count = size;
this.value = v;
}
複製代碼
複製代碼
從中咱們能夠看到，雖然是新建立了一個String的實例，可是value是等於常量池中的實例的value，便是說沒有new一個新的字符數組來存放"123"。

若是是String a = new String("123"+b)的狀況，首先看回第4點，"123"+b獲得一個實例後，再按上面的構造函數執行。

6.String.intern()

String對象的實例調用intern方法後，可讓JVM檢查常量池，若是沒有實例的value屬性對應的字符串序列好比"123"(注意是檢查字符串序列而不是檢查實例自己)，就將本實例放入常量池，若是有當前實例的value屬性對應的字符串序列"123"在常量池中存在，則返回常量池中"123"對應的實例的引用而不是當前實例的引用，即便當前實例的value也是"123"。

public native String intern();
存在於.class文件中的常量池，在運行期被JVM裝載，而且能夠擴充。String的 intern()方法就是擴充常量池的一個方法；當一個String實例str調用intern()方法時，Java 查找常量池中是否有相同Unicode的字符串常量，若是有，則返回其的引用，若是沒有，則在常量池中增長一個Unicode等於str的字符串並返回它的引用；看示例就清楚了

複製代碼
複製代碼
public static void main(String[] args) {
String s0 = "kvill";
String s1 = new String("kvill");
String s2 = new String("kvill");
System.out.println( s0 == s1 ); //false
System.out.println( "**" );
s1.intern(); //雖然執行了s1.intern(),但它的返回值沒有賦給s1
s2 = s2.intern(); //把常量池中"kvill"的引用賦給s2
System.out.println( s0 == s1); //flase
System.out.println( s0 == s1.intern() ); //true//說明s1.intern()返回的是常量池中"kvill"的引用
System.out.println( s0 == s2 ); //true
}
複製代碼
複製代碼
最後我再破除一個錯誤的理解：有人說，「使用 String.intern() 方法則能夠將一個 String 類的保存到一個全局 String 表中，若是具備相同值的 Unicode 字符串已經在這個表中，那麼該方法返回表中已有字符串的地址，若是在表中沒有相同值的字符串，則將本身的地址註冊到表中」若是我把他說的這個全局的 String 表理解爲常量池的話，他的最後一句話，」若是在表中沒有相同值的字符串，則將本身的地址註冊到表中」是錯的：

複製代碼
複製代碼
public static void main(String[] args) {
String s1 = new String("kvill");
String s2 = s1.intern();
System.out.println( s1 == s1.intern() ); //false
System.out.println( s1 + " " + s2 ); //kvill kvill
System.out.println( s2 == s1.intern() ); //true
}
複製代碼
複製代碼
在這個類中咱們沒有聲名一個」kvill」常量，因此常量池中一開始是沒有」kvill」的，當咱們調用s1.intern()後就在常量池中新添加了一個」kvill」常量，原來的不在常量池中的」kvill」仍然存在，也就不是「將本身的地址註冊到常量池中」了。

　　s1==s1.intern() 爲false說明原來的」kvill」仍然存在；s2如今爲常量池中」kvill」的地址，因此有s2==s1.intern()爲true。

StringBuffer與StringBuilder的區別，它們的應用場景是什麼？

jdk的實現中StringBuffer與StringBuilder都繼承自AbstractStringBuilder，對於多線程的安全與非安全看到StringBuffer中方法前面的一堆synchronized就大概瞭解了。
這裏隨便講講AbstractStringBuilder的實現原理：咱們知道使用StringBuffer等無非就是爲了提升java中字符串鏈接的效率，由於直接使用+進行字符串鏈接的話，jvm會建立多個String對象，所以形成必定的開銷。AbstractStringBuilder中採用一個char數組來保存須要append的字符串，char數組有一個初始大小，當append的字符串長度超過當前char數組容量時，則對char數組進行動態擴展，也即從新申請一段更大的內存空間，而後將當前char數組拷貝到新的位置，由於從新分配內存並拷貝的開銷比較大，因此每次從新申請內存空間都是採用申請大於當前須要的內存空間的方式，這裏是2倍

【
StringBuffer 始於 JDK 1.0
StringBuilder 始於 JDK 1.5

從 JDK 1.5 開始，帶有字符串變量的鏈接操做（+），JVM 內部採用的是 
StringBuilder 來實現的，而以前這個操做是採用 StringBuffer 實現的。

】

咱們經過一個簡單的程序來看其執行的流程：
複製代碼
複製代碼
public class Buffer {
public static void main(String[] args) {
String s1 = "aaaaa";
String s2 = "bbbbb";
String r = null;
int i = 3694;
r = s1 + i + s2;

for(int j=0;i<10;j++){  
            r+="23124";  
        }  
 }

}
複製代碼
複製代碼
使用命令javap -c Buffer查看其字節碼實現：

將清單1和清單2對應起來看，清單2的字節碼中ldc指令即從常量池中加載「aaaaa」字符串到棧頂，istore_1將「aaaaa」存到變量1中，後面的同樣，sipush是將一個短整型常量值(-32768~32767)推送至棧頂，這裏是常量「3694」，更多的Java指令集請查看另外一篇文章「Java指令集」。

讓咱們直接看到13,13~17是new了一個StringBuffer對象並調用其初始化方法，20~21則是先經過aload_1將變量1壓到棧頂，前面說過變量1放的就是字符串常量「aaaaa」，接着經過指令invokevirtual調用StringBuffer的append方法將「aaaaa」拼接起來，後續的24~30同理。最後在33調用StringBuffer的toString函數得到String結果並經過astore存到變量3中。

看到這裏可能有人會說，「既然JVM內部採用了StringBuffer來鏈接字符串了，那麼咱們本身就不用用StringBuffer，直接用」+「就好了吧！「。是麼？固然不是了。俗話說」存在既有它的理由」，讓咱們繼續看後面的循環對應的字節碼。

37~42都是進入for循環前的一些準備工做，37,38是將j置爲1。44這裏經過if_icmpge將j與10進行比較，若是j大於10則直接跳轉到73，也即return語句退出函數；不然進入循環，也即47~66的字節碼。這裏咱們只需看47到51就知道爲何咱們要在代碼中本身使用StringBuffer來處理字符串的鏈接了，由於每次執行「+」操做時jvm都要new一個StringBuffer對象來處理字符串的鏈接，這在涉及不少的字符串鏈接操做時開銷會很大。歡迎工做一到五年的Java工程師朋友們加入Java羣： 891219277羣內提供免費的Java架構學習資料（裏面有高可用、高併發、高性能及分佈式、Jvm性能調優、Spring源碼，MyBatis，Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多個知識點的架構資料）合理利用本身每一分每一秒的時間來學習提高本身，不要再用"沒有時間「來掩飾本身思想上的懶惰！趁年輕，使勁拼，給將來的本身一個交代！

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。