String做爲咱們使用最頻繁的一種對象類型,其性能問題是最容易被忽略的。做爲Java中重要的數據類型,是內存中佔據空間比較大的一個對象。如何高效地使用字符串,能夠幫助咱們提高系統的總體性能。正則表達式
如今,咱們就從String對象的實現、特性以及實際使用中的優化這幾方面來入手,深刻理解如下String的性能優化。編程
在這以前,首先看一個問題。經過三種方式建立三個對象,而後依次兩兩匹配,得出的結果是什麼?答案留到最後揭曉。數組
1 String str1 = "abc"; 2 String str2 = new String("abc"); 3 String str3 = str2.intern(); 4 System.out.println(str1 == str2); 5 System.out.println(str2 == str3); 6 System.out.println(str1 == str3);
String對象是如何實現的?緩存
Java中對String對象作了大量的優化,以此來節約內存空間,提高String對象的性能。下圖是Java6 -> Java9 String對象屬性的變化:安全
能夠看到,String的屬性有了如下的變化:性能優化
爲何要這麼改呢?多線程
咱們知道,一個char字符佔16位,2個字節。這種狀況下存儲單字節的字符就很容易浪費了。JDK1.9的String類爲了節省內存空間,就使用了佔8位,1個字節的byte數組來存儲字符串。app
coder屬性的做用是:在計算字符串長度或者使用indexOf()時,須要根據這個字段,判斷如何計算字符串的長度。coder屬性值默認有0和1兩個值,0表明Latin-1(單字節編碼),1表明UTF-16。若是String判斷字符串只包含Latin-1,則coder值取0,反之爲1。函數
String對象的不可變性性能
若是看過String的源碼,就會發現,String類是被final關鍵字修飾的,且變量char數組也被final修飾。
一個類被final修飾表明着該類不可繼承,char[]被private和final修飾着,表明String對象不可被更改。這就叫作String對象的不可變性。即若是String對象一旦建立成功了,就不能再對它進行改變。
這樣作的好處在哪裏?
第1、保證了String對象的安全性。假設String對象是可變的,那麼String對象就會被惡意修改。
第二.、保證hash屬性值不會頻繁變動,確保了惟一性。使得相似HashMap容器才能實現相應的key-value緩存功能。
第3、能夠實現字符串常量池。Java中,一般有2種建立字符串對象的方式,一種是經過字符串常量的方式建立,如String str = "abc";另外一種是字符串常量經過new形式的建立,如String str = new String("abc")。
當代碼中使用第一種方式建立字符串對象時,JVM首先檢查該對象是否在字符串常量池中,若是在就返回該對象的引用,不然新的字符串將在常量池中建立。這種方式能夠減小同一個值的字符串對象的重複建立,節約內存。
第二種方式,首先在編譯類文件時,"abc"常量字符串將會放入到常量結構中,在類加載時,"abc"會在常量池中建立;而後調用new時,JVM命令將會調用String的構造函數,同時引用常量池的"abc"字符串,在堆內存中建立一個String對象,最後str引用String對象。
1.如何構建超大字符串
編程過程當中字符串的拼接很常見。若是使用String對象相加,拼接咱們想要的字符串,會不會產生多個對象呢?好比說如下代碼:
String str = "ab" + "cd" + "ef";
分析代碼可知:首先會生成ab對象,再生成abcd對象,最後生成abcdef對象。理論上說,代碼很低效。
但實際上,會發現只有一個對象生成,這是爲何呢?編譯時編譯器會自動幫咱們優化代碼,使得最後只得出一個對象「abcdef」。
再來看看,若是進行字符串常量的累計,又會出現什麼結果?
String str = "abcdef"; for (int i = 0; i < 100; i++) { str = str + i; }
上面的代碼編譯後,編譯器一樣對代碼進行了優化,在進行字符串拼接時,偏向使用StringBuilder,這樣能夠提高效率。上面的代碼變成了下面這樣:
String str = "abcdef"; for (int i = 0; i < 100; i++) { str = (new StringBuilder(String.valueOf(str))).append(i).toString(); }
總結:即便使用+號做爲字符串的拼接,同樣能夠被編譯器優化成StringBuilder的方式。但若是每次循環都生成一個新的StringBuilder實例,一樣會下降系統的性能。因此平時作字符串拼接的時候,建議仍是顯示使用StringBuilder來提高性能。在多線程編程時,String對象的拼接涉及到了線程安全,可使用StringBuffer。但因爲StringBuffer是線程安全的,涉及到鎖競爭,因此就性能上來講會比StringBuilder差些。
對於一些數據,數據量很是大,但同時又有大部分重合的,該如何處理呢?
具體作法是,每次賦值的時候使用String的intern方法,若是常量池中有相同值,就會重複使用該對象,返回對象的引用,這樣一開始的對象就能夠被回收掉了,這樣的話數據量就會大幅度下降了。
咱們再來看一個例子:
String a = new String("abc").intern(); String b = new String("abc").intern(); if (a == b) { System.out.println("a == b"); }
輸出結果是: a == b
在字符串常量池中,默認會將對象放入常量池;在字符串變量中,對象老是建立在堆內存的,同時也會在常量池中建立一個字符串對象,複製到堆內存對象中,並返回堆內存對象引用。
若是調用intern方法,會去查看字符串常量池中是否有等於該對象的字符串,若是沒有,就會在常量池中新增該對象,並返回該對象引用;若是有則返回常量池中的字符串引用。堆內存中原有的對象因爲沒有引用指向它,將會經過垃圾回收器回收。
spilt()方法使用了正則表達式實現了強大的分割功能,而正則表達式的性能是很是不穩定的,使用不當會引發回溯問題,極可能致使CPU居高不下。
因此要慎重使用spilt方法,咱們能夠用String.indexOf()方法代替spilt()方法完成字符串的分割,若是實在沒法知足需求,就在使用spilt方法時,對回溯問題加以重視就能夠了。
經過上面的敘述,咱們認識到了作好String字符串性能的優化,能夠提高整個系統的性能。在這個理論基礎上,Java版本在迭代中不斷更改爲員變量,節約內存空間,對String性能進行了優化。
咱們還提到了String對象的不可變性,正是這個特性實現了字符串常量池,經過減小同一個值的字符串對象的重複建立,進一步節約內存。也是由於這個特性,咱們在作長字符串的拼接時,須要顯示使用StringBuilder,以提高字符串的拼接性能。最後在優化方面,咱們還可使用intern方法,讓變量字符串對象重複使用常量池中相同值的對象,進而節約內存。
最後,公佈上面那道題的結果:
false、false、true。
其中, String str1 = 「abc」;經過字面量的方式建立,abc存儲於字符串常量池中;
String str2 = new String("abc");經過new對象的方式建立字符串對象,引用地址存放在堆內存中,abc則存放在字符串常量池中,因此爲false;
String str3 = str2.intern();因爲調用了intern()方法,會返回常量池中的數據,str3此時就指向常量池中的abc,和str1的方式同樣,因此爲true;