本片內容和多線程之間數據同步有密切關係,多線程的數據同步表面上只有不一樣線程執行順序的不肯定性所帶來的問題,其實深層還有:java
一、主內存與線程本地內存之間數據的同步。程序員
二、處理器指令重排序帶來的多線程之間指令順序與真實順序不一致的問題。編程
http://ifeve.com/java-memory-model-0/數組
1、基礎緩存
併發編程模型的分類:安全
在併發編程中,咱們須要處理兩個關鍵問題:線程之間如何通訊及線程之間如何同步(這裏的線程是指併發執行的活動實體)。通訊是指線程之間以何種機制來交換信息。在命令式編程中,線程之間的通訊機制有兩種:共享內存和消息傳遞。
在共享內存的併發模型裏,線程之間共享程序的公共狀態,線程之間經過寫-讀內存中的公共狀態來隱式進行通訊。在消息傳遞的併發模型裏,線程之間沒有公共狀態,線程之間必須經過明確的發送消息來顯式進行通訊。多線程
同步是指程序用於控制不一樣線程之間操做發生相對順序的機制。在共享內存併發模型裏,同步是顯式進行的。程序員必須顯式指定某個方法或某段代碼須要在線程之間互斥執行。在消息傳遞的併發模型裏,因爲消息的發送必須在消息的接收以前,所以同步是隱式進行的。併發
Java的併發採用的是共享內存模型,Java線程之間的通訊老是隱式進行,整個通訊過程對程序員徹底透明。若是編寫多線程程序的Java程序員不理解隱式進行的線程之間通訊的工做機制,極可能會遇到各類奇怪的內存可見性問題。app
在java中,全部實例域、靜態域和數組元素存儲在堆內存中,堆內存在線程之間共享(本文使用「共享變量」這個術語代指實例域,靜態域和數組元素)。局部變量(Local variables),方法定義參數(java語言規範稱之爲formal method parameters)和異常處理器參數(exception handler parameters)不會在線程之間共享,它們不會有內存可見性問題,也不受內存模型的影響。受內存看見性影響的是:對象的引用(對象指針,一個引用類型的變量,能夠理解爲存儲的是一個int型(根據不一樣位數指針長度不一樣)的指針地址)、java的基本類型(float和double特殊一點,是大於一個字節的)。框架
Java線程之間的通訊由Java內存模型(本文簡稱爲JMM)控制,JMM決定一個線程對共享變量的寫入什麼時候對另外一個線程可見。從抽象的角度來看,JMM定義了線程和主內存之間的抽象關係:線程之間的共享變量存儲在主內存(main memory)中,每一個線程都有一個私有的本地內存(local memory),本地內存中存儲了該線程以讀/寫共享變量的副本。本地內存是JMM的一個抽象概念,並不真實存在。它涵蓋了緩存,寫緩衝區,寄存器以及其餘的硬件和編譯器優化。對於單核cpu來講,這個本地內存多來源於編譯器優化,cpu自身所持有的緩存是多個線程所共享的(不排除在邏輯上把cpu緩存劃分給不一樣的線程,固然就算劃分也是編譯器作的優化)。對於多核cpu來講,如Intel系列的,有一二三級緩存,每一個核心的一級緩存是非共享的,而二三級緩存不一樣的型號都有多是共享的或者非共享的,不一樣的線程分配給不一樣的CPU進行處理時,他們的本地內存確定是非共享的。JMM的做用就是經過JVM來把底層這些CPU緩存框架抽象成同一套系統,這就是JMM。
Java內存模型的抽象示意圖以下:
從上圖來看,線程A與線程B之間如要通訊的話,必需要經歷下面2個步驟:
下面經過示意圖來講明這兩個步驟:
如上圖所示,本地內存A和B有主內存中共享變量x的副本。假設初始時,這三個內存中的x值都爲0。線程A在執行時,把更新後的x值(假設值爲1)臨時存放在本身的本地內存A中。當線程A和線程B須要通訊時,線程A首先會把本身本地內存中修改後的x值刷新到主內存中,此時主內存中的x值變爲了1。隨後,線程B到主內存中去讀取線程A更新後的x值,此時線程B的本地內存的x值也變爲了1。
從總體來看,這兩個步驟實質上是線程A在向線程B發送消息,並且這個通訊過程必需要通過主內存。JMM經過控制主內存與每一個線程的本地內存之間的交互,來爲java程序員提供內存可見性保證。
這裏的指令都是指cpu指令,而不是簡單的一句java代碼。一句java代碼編譯成字節碼以後有多是多句指令(簡單的賦值語句都是一句指令)。也能夠描述爲彙編指令。
在執行程序時爲了提升性能,編譯器和處理器經常會對指令作重排序。重排序分三種類型:
從java源代碼到最終實際執行的指令序列,會分別經歷下面三種重排序:
上述的1屬於編譯器重排序,2和3屬於處理器重排序。這些重排序均可能會致使多線程程序出現內存可見性問題。對於編譯器,JMM的編譯器重排序規則會禁止特定類型的編譯器重排序(不是全部的編譯器重排序都要禁止)。對於處理器重排序,JMM的處理器重排序規則會要求java編譯器在生成指令序列時,插入特定類型的內存屏障(memory barriers,intel稱之爲memory fence)指令,經過內存屏障指令來禁止特定類型的處理器重排序(不是全部的處理器重排序都要禁止)。
JMM屬於語言級的內存模型,它確保在不一樣的編譯器和不一樣的處理器平臺之上,經過禁止特定類型的編譯器重排序和處理器重排序,爲程序員提供一致的內存可見性保證。
現代的處理器使用寫緩衝區來臨時保存向內存寫入的數據。寫緩衝區能夠保證指令流水線持續運行,它能夠避免因爲處理器停頓下來等待向內存寫入數據而產生的延遲。同時,經過以批處理的方式刷新寫緩衝區,以及合併寫緩衝區中對同一內存地址的屢次寫,能夠減小對內存總線的佔用。雖然寫緩衝區有這麼多好處,但每一個處理器上的寫緩衝區,僅僅對它所在的處理器可見。這個特性會對內存操做的執行順序產生重要的影響:處理器對內存的讀/寫操做的執行順序,不必定與內存實際發生的讀/寫操做順序一致!爲了具體說明,請看下面示例:
Processor A | Processor B |
---|---|
a = 1; //A1 x = b; //A2 |
b = 2; //B1 y = a; //B2 |
初始狀態:a = b = 0 處理器容許執行後獲得結果:x = y = 0(有可能獲得這個結果) |
按照通常的線程過程考慮,是不可能出現二者均爲0的狀況的,由於無論先進入哪一個線程,都會有一句賦值語句,修改a或者b的值,最終確定有一個x或者y不爲0.可是因爲線程的本地內存的存在,在兩個線程開始時同時把0這個初值載入他們的緩衝區,若是在線程執行過程當中沒有緩衝區與主內存數據同步,必然會致使最終的結果爲x=y=0.
這裏處理器A和處理器B能夠同時把共享變量(a,b)寫入本身的寫緩衝區(A1,B1),而後從內存中讀取另外一個共享變量(b,a)(A2,B2),最後才把本身寫緩存區中保存的髒數據刷新到內存中(A3,B3)。當以這種時序執行時,程序就可能獲得x = y = 0的結果。
從內存操做實際發生的順序來看,直處處理器A執行A3來刷新本身的寫緩存區,寫操做A1纔算真正執行了。雖然處理器A執行內存操做的順序爲:A1->A2,但內存操做實際發生的順序倒是:A2->A1(真實更新主內存的順序)。此時,處理器A的內存操做順序被重排序了(因爲緩存的存在必然致使的重排序)(處理器B的狀況和處理器A同樣,這裏就不贅述了)。
這裏的關鍵是,因爲寫緩衝區僅對本身的處理器可見,它會致使處理器執行內存操做的順序可能會與內存實際的操做執行順序不一致。因爲現代的處理器都會使用寫緩衝區,所以現代的處理器都會容許對寫-讀操作重排序。(兩句指令,第一句指令是寫操做,第二句是讀操做,被重排序爲先讀再寫了)
下面是常見處理器容許的重排序類型的列表:
Load-Load | Load-Store | Store-Store | Store-Load | 數據依賴 | |
sparc-TSO | N | N | N | Y | N |
x86(x86-64,AMD64) | N | N | N | Y | N |
ia64(安騰) | Y | Y | Y | Y | N |
PowerPC(ARM) | Y | Y | Y | Y | N |
常見的處理器都容許Store-Load重排序;常見的處理器都不容許對存在數據依賴的操做作重排序。sparc-TSO和x86擁有相對較強的處理器內存模型,它們僅容許對寫-讀操做作重排序(由於它們都使用了寫緩衝區)。
爲了保證內存可見性,java編譯器在生成指令序列的適當位置會插入內存屏障指令來禁止特定類型的處理器重排序。JMM把內存屏障指令分爲下列四類:
屏障類型 | 指令示例 | 說明 |
LoadLoad Barriers | Load1; LoadLoad; Load2 | 確保Load1數據的裝載,以前於Load2及全部後續裝載指令的裝載。 |
StoreStore Barriers | Store1; StoreStore; Store2 | 確保Store1數據對其餘處理器可見(刷新到內存),以前於Store2及全部後續存儲指令的存儲。 |
LoadStore Barriers | Load1; LoadStore; Store2 | 確保Load1數據裝載,以前於Store2及全部後續的存儲指令刷新到內存。 |
StoreLoad Barriers | Store1; StoreLoad; Load2 | 確保Store1數據對其餘處理器變得可見(指刷新到內存),以前於Load2及全部後續裝載指令的裝載。StoreLoad Barriers會使該屏障以前的全部內存訪問指令(存儲和裝載指令)完成以後,才執行該屏障以後的內存訪問指令。 |
StoreLoad Barriers是一個「全能型」的屏障,它同時具備其餘三個屏障的效果。現代的多處理器大都支持該屏障(其餘類型的屏障不必定被全部處理器支持)。執行該屏障開銷會很昂貴,由於當前處理器一般要把寫緩衝區中的數據所有刷新到內存中(buffer fully flush)。
========前面描述的是指令的重排序可能對程序結果產生影響========
從JDK5開始,java使用新的JSR -133內存模型(本文除非特別說明,針對的都是JSR- 133內存模型)。JSR-133提出了happens-before的概念,經過這個概念來闡述操做之間的內存可見性。若是一個操做執行的結果須要對另外一個操做可見,那麼這兩個操做之間必須存在happens-before關係。這裏提到的兩個操做既能夠是在一個線程以內,也能夠是在不一樣線程之間。 與程序員密切相關的happens-before規則以下:
注意,兩個操做之間具備happens-before關係,並不意味着前一個操做必需要在後一個操做以前執行!happens-before僅僅要求前一個操做(執行的結果)對後一個操做可見,且前一個操做按順序排在第二個操做以前(the first is visible to and ordered before the second)。happens- before的定義很微妙,後文會具體說明happens-before爲何要這麼定義。
happens-before與JMM的關係以下圖所示:
如上圖所示,一個happens-before規則一般對應於多個編譯器重排序規則和處理器重排序規則。對於java程序員來講,happens-before規則簡單易懂,它避免程序員爲了理解JMM提供的內存可見性保證而去學習複雜的重排序規則以及這些規則的具體實現。
若是兩個操做訪問同一個變量,且這兩個操做中有一個爲寫操做,此時這兩個操做之間就存在數據依賴性。數據依賴分下列三種類型:
名稱 | 代碼示例 | 說明 |
寫後讀 | a = 1;b = a; | 寫一個變量以後,再讀這個位置。 |
寫後寫 | a = 1;a = 2; | 寫一個變量以後,再寫這個變量。 |
讀後寫 | a = b;b = 1; | 讀一個變量以後,再寫這個變量。 |
上面三種狀況,只要重排序兩個操做的執行順序,程序的執行結果將會被改變。
編譯器和處理器可能會對操做作重排序。編譯器和處理器在重排序時,會遵照數據依賴性,編譯器和處理器不會改變存在數據依賴關係的兩個操做的執行順序。
注意,這裏所說的數據依賴性僅針對單個處理器中執行的指令序列和單個線程中執行的操做,不一樣處理器之間和不一樣線程之間的數據依賴性不被編譯器和處理器考慮。
這個不進行重排序的操做是處理器自動處理的,不須要程序員去考慮。
as-if-serial語義的意思指:無論怎麼重排序(編譯器和處理器爲了提升並行度),(單線程)程序的執行結果不能被改變。編譯器,runtime 和處理器都必須遵照as-if-serial語義。爲了遵照as-if-serial語義,編譯器和處理器不會對存在數據依賴關係的操做作重排序,由於這種重排序會改變執行結果。可是,若是操做之間不存在數據依賴關係,這些操做可能被編譯器和處理器重排序。爲了具體說明,請看下面計算圓面積的代碼示例:
double pi = 3.14; //A double r = 1.0; //B double area = pi * r * r; //C
A和C之間存在數據依賴關係,同時B和C之間也存在數據依賴關係。所以在最終執行的指令序列中,C不能被重排序到A和B的前面(C排到A和B的前面,程序的結果將會被改變)。但A和B之間沒有數據依賴關係,編譯器和處理器能夠重排序A和B之間的執行順序。
as-if-serial語義把單線程程序保護了起來,遵照as-if-serial語義的編譯器,runtime 和處理器共同爲編寫單線程程序的程序員建立了一個幻覺:單線程程序是按程序的順序來執行的。as-if-serial語義使單線程程序員無需擔憂重排序會干擾他們,也無需擔憂內存可見性問題。
可是重排序卻會對多線程操做形成影響,這就是本篇開頭說的問題2。
根據happens- before的程序順序規則,上面計算圓的面積的示例代碼存在三個happens- before關係:
這裏的第3個happens- before關係,是根據happens- before的傳遞性推導出來的。
這裏A happens- before B,但實際執行時B卻能夠排在A以前執行(看上面的重排序後的執行順序)。在上面提到過,若是A happens- before B,JMM並不要求A必定要在B以前執行。JMM僅僅要求前一個操做(執行的結果)對後一個操做可見,且前一個操做按順序排在第二個操做以前(?)。這裏操做A的執行結果不須要對操做B可見;並且重排序操做A和操做B後的執行結果,與操做A和操做B按happens- before順序執行的結果一致。在這種狀況下,JMM會認爲這種重排序並不非法(not illegal),JMM容許這種重排序。
在計算機中,軟件技術和硬件技術有一個共同的目標:在不改變程序執行結果的前提下,儘量的開發並行度。編譯器和處理器聽從這一目標,從happens- before的定義咱們能夠看出,JMM一樣聽從這一目標。
========前面描述的是在單線程的狀況下,指令的重排序不會對程序結果形成影響的緣由========
如今讓咱們來看看,重排序是否會改變多線程程序的執行結果。請看下面的示例代碼:
class ReorderExample { int a = 0; boolean flag = false; public void writer() { a = 1; //1 flag = true; //2 } Public void reader() { if (flag) { //3 int i = a * a; //4 …… } } }
flag變量是個標記,用來標識變量a是否已被寫入。這裏假設有兩個線程A和B,A首先執行writer()方法,隨後B線程接着執行reader()方法。線程B在執行操做4時,可否看到線程A在操做1對共享變量a的寫入?答案是:不必定能看到。
因爲操做1和操做2沒有數據依賴關係,編譯器和處理器能夠對這兩個操做重排序;一樣,操做3和操做4沒有數據依賴關係,編譯器和處理器也能夠對這兩個操做重排序。讓咱們先來看看,當操做1和操做2重排序時,可能會產生什麼效果?請看下面的程序執行時序圖:
如上圖所示,操做1和操做2作了重排序。程序執行時,線程A首先寫標記變量flag,隨後線程B讀這個變量。因爲條件判斷爲真,線程B將讀取變量a。此時,變量a還根本沒有被線程A寫入,在這裏多線程程序的語義被重排序破壞了!
下面再讓咱們看看,當操做3和操做4重排序時會產生什麼效果(藉助這個重排序,能夠順便說明控制依賴性)。下面是操做3和操做4重排序後,程序的執行時序圖:
在程序中,操做3和操做4存在控制依賴關係。當代碼中存在控制依賴性時,會影響指令序列執行的並行度。爲此,編譯器和處理器會採用猜想(Speculation)執行來克服控制相關性對並行度的影響。以處理器的猜想執行爲例,執行線程B的處理器能夠提早讀取並計算a*a,而後把計算結果臨時保存到一個名爲重排序緩衝(reorder buffer ROB)的硬件緩存中。當接下來操做3的條件判斷爲真時,就把該計算結果寫入變量i中。
從圖中咱們能夠看出,猜想執行實質上對操做3和4作了重排序。重排序在這裏破壞了多線程程序的語義!
在單線程程序中,對存在控制依賴的操做重排序,不會改變執行結果(這也是as-if-serial語義容許對存在控制依賴的操做作重排序的緣由);但在多線程程序中,對存在控制依賴的操做重排序,可能會改變程序的執行結果。
========前面描述的是在不進行線程控制時可能出現的多線程問題,一旦遇到這種問題,調試都沒辦法調試========
當程序未正確同步時,就會存在數據競爭。java內存模型規範對數據競爭的定義以下:
當代碼中包含數據競爭時,程序的執行每每產生違反直覺的結果(上面的示例正是如此)。若是一個多線程程序能正確同步,這個程序將是一個沒有數據競爭的程序。
JMM對正確同步的多線程程序的內存一致性作了以下保證:
順序一致性內存模型是一個被計算機科學家理想化了的理論參考模型,它爲程序員提供了極強的內存可見性保證。順序一致性內存模型有兩大特性:
順序一致性內存模型爲程序員提供的視圖以下:
在概念上,順序一致性模型有一個單一的全局內存,這個內存經過一個左右擺動的開關能夠鏈接到任意一個線程。同時,每個線程必須按程序的順序來執行內存讀/寫操做。從上圖咱們能夠看出,在任意時間點最多隻能有一個線程能夠鏈接到內存。當多個線程併發執行時,圖中的開關裝置能把全部線程的全部內存讀/寫操做串行化。
爲了更好的理解,下面咱們經過兩個示意圖來對順序一致性模型的特性作進一步的說明。
假設有兩個線程A和B併發執行。其中A線程有三個操做,它們在程序中的順序是:A1->A2->A3。B線程也有三個操做,它們在程序中的順序是:B1->B2->B3。
假設這兩個線程使用監視器來正確同步:A線程的三個操做執行後釋放監視器,隨後B線程獲取同一個監視器。那麼程序在順序一致性模型中的執行效果將以下圖所示:
如今咱們再假設這兩個線程沒有作同步,下面是這個未同步程序在順序一致性模型中的執行示意圖:
未同步程序在順序一致性模型中雖然總體執行順序是無序的,但全部線程都只能看到一個一致的總體執行順序。以上圖爲例,線程A和B看到的執行順序都是:B1->A1->A2->B2->A3->B3。之因此能獲得這個保證是由於順序一致性內存模型中的每一個操做必須當即對任意線程可見。(每一個操做都更新到主內存,因此兩個線程看到的執行順序是一致的)
可是,在JMM中就沒有這個保證。未同步程序在JMM中不但總體的執行順序是無序的,並且全部線程看到的操做執行順序也可能不一致。好比,在當前線程把寫過的數據緩存在本地內存中,且尚未刷新到主內存以前,這個寫操做僅對當前線程可見;從其餘線程的角度來觀察,會認爲這個寫操做根本尚未被當前線程執行。只有當前線程把本地內存中寫過的數據刷新到主內存以後,這個寫操做才能對其餘線程可見。在這種狀況下,當前線程和其它線程看到的操做執行順序將不一致。
下面咱們對前面的示例程序ReorderExample用監視器來同步,看看正確同步的程序如何具備順序一致性。
class SynchronizedExample { int a = 0; boolean flag = false; public synchronized void writer() { a = 1; flag = true; } public synchronized void reader() { if (flag) { int i = a; …… } } }
上面示例代碼中,假設A線程執行writer()方法後,B線程執行reader()方法。這是一個正確同步的多線程程序。根據JMM規範,該程序的執行結果將與該程序在順序一致性模型中的執行結果相同。下面是該程序在兩個內存模型中的執行時序對比圖:
在順序一致性模型中,全部操做徹底按程序的順序串行執行。而在JMM中,臨界區內的代碼能夠重排序(但JMM不容許臨界區內的代碼「逸出」到臨界區以外,那樣會破壞監視器的語義)。JMM會在退出監視器和進入監視器這兩個關鍵時間點作一些特別處理,使得線程在這兩個時間點具備與順序一致性模型相同的內存視圖(具體細節後文會說明)。雖然線程A在臨界區內作了重排序,但因爲監視器的互斥執行的特性,這裏的線程B根本沒法「觀察」到線程A在臨界區內的重排序。這種重排序既提升了執行效率,又沒有改變程序的執行結果。
從這裏咱們能夠看到JMM在具體實現上的基本方針:在不改變(正確同步的)程序執行結果的前提下,儘量的爲編譯器和處理器的優化打開方便之門。
對於未同步或未正確同步的多線程程序,JMM只提供最小安全性:線程執行時讀取到的值,要麼是以前某個線程寫入的值,要麼是默認值(0,null,false),JMM保證線程讀操做讀取到的值不會無中生有(out of thin air)的冒出來。爲了實現最小安全性,JVM在堆上分配對象時,首先會清零內存空間,而後纔會在上面分配對象(JVM內部會同步這兩個操做)。所以,在以清零的內存空間(pre-zeroed memory)分配對象時,域的默認初始化已經完成了。
JMM不保證未同步程序的執行結果與該程序在順序一致性模型中的執行結果一致。由於未同步程序在順序一致性模型中執行時,總體上是無序的,其執行結果沒法預知。保證未同步程序在兩個模型中的執行結果一致毫無心義。
和順序一致性模型同樣,未同步程序在JMM中的執行時,總體上也是無序的,其執行結果也沒法預知。同時,未同步程序在這兩個模型中的執行特性有下面幾個差別:
第3個差別與處理器總線的工做機制密切相關。在計算機中,數據經過總線在處理器和內存之間傳遞。每次處理器和內存之間的數據傳遞都是經過一系列步驟來完成的,這一系列步驟稱之爲總線事務(bus transaction)。總線事務包括讀事務(read transaction)和寫事務(write transaction)。讀事務從內存傳送數據處處理器,寫事務從處理器傳送數據到內存,每一個事務會讀/寫內存中一個或多個物理上連續的字。這裏的關鍵是,總線會同步試圖併發使用總線的事務。在一個處理器執行總線事務期間,總線會禁止其它全部的處理器和I/O設備執行內存的讀/寫。下面讓咱們經過一個示意圖來講明總線的工做機制:
假設處理器A,B和C同時向總線發起總線事務,這時總線仲裁(bus arbitration)會對競爭做出裁決,這裏咱們假設總線在仲裁後斷定處理器A在競爭中獲勝(總線仲裁會確保全部處理器都能公平的訪問內存)。此時處理器A繼續它的總線事務,而其它兩個處理器則要等待處理器A的總線事務完成後才能開始再次執行內存訪問。假設在處理器A執行總線事務期間(無論這個總線事務是讀事務仍是寫事務),處理器D向總線發起了總線事務,此時處理器D的這個請求會被總線禁止。
總線的這些工做機制能夠把全部處理器對內存的訪問以串行化的方式來執行;在任意時間點,最多隻能有一個處理器能訪問內存。這個特性確保了單個總線事務之中的內存讀/寫操做具備原子性。
在一些32位的處理器上,若是要求對64位數據的讀/寫操做具備原子性,會有比較大的開銷。爲了照顧這種處理器,java語言規範鼓勵但不強求JVM對64位的long型變量和double型變量的讀/寫具備原子性。當JVM在這種處理器上運行時,會把一個64位long/ double型變量的讀/寫操做拆分爲兩個32位的讀/寫操做來執行。這兩個32位的讀/寫操做可能會被分配到不一樣的總線事務中執行,此時對這個64位變量的讀/寫將不具備原子性。
當單個內存操做不具備原子性,將可能會產生意想不到後果。請看下面示意圖:
假設處理器A寫一個long型變量,同時處理器B要讀這個long型變量。處理器A中64位的寫操做被拆分爲兩個32位的寫操做,且這兩個32位的寫操做被分配到不一樣的寫事務中執行。同時處理器B中64位的讀操做被拆分爲兩個32位的讀操做,且這兩個32位的讀操做被分配到同一個的讀事務中執行。當處理器A和B按上圖的時序來執行時,處理器B將看到僅僅被處理器A「寫了一半「的無效值。