原文地址http://www.cnblogs.com/xrq730/p/7048693.html,轉載請註明出處,謝謝html
前言java
咱們知道volatile關鍵字的做用是保證變量在多線程之間的可見性,它是java.util.concurrent包的核心,沒有volatile就沒有這麼多的併發類給咱們使用。編程
本文詳細解讀一下volatile關鍵字如何保證變量在多線程之間的可見性,在此以前,有必要講解一下CPU緩存的相關知識,掌握這部分知識必定會讓咱們更好地理解volatile的原理,從而更好、更正確地地使用volatile關鍵字。緩存
CPU緩存sass
CPU緩存的出現主要是爲了解決CPU運算速度與內存讀寫速度不匹配的矛盾,由於CPU運算速度要比內存讀寫速度快得多,舉個例子:服務器
這種訪問速度的顯著差別,致使CPU可能會花費很長時間等待數據到來或把數據寫入內存。數據結構
基於此,如今CPU大多數狀況下讀寫都不會直接訪問內存(CPU都沒有鏈接到內存的管腳),取而代之的是CPU緩存,CPU緩存是位於CPU與內存之間的臨時存儲器,它的容量比內存小得多可是交換速度卻比內存快得多。而緩存中的數據是內存中的一小部分數據,但這一小部分是短期內CPU即將訪問的,當CPU調用大量數據時,就可先從緩存中讀取,從而加快讀取速度。多線程
按照讀取順序與CPU結合的緊密程度,CPU緩存可分爲:架構
每一級緩存中所存儲的數據所有都是下一級緩存中的一部分,這三種緩存的技術難度和制形成本是相對遞減的,因此其容量也相對遞增。併發
當CPU要讀取一個數據時,首先從一級緩存中查找,若是沒有再從二級緩存中查找,若是仍是沒有再從三級緩存中或內存中查找。通常來講每級緩存的命中率大概都有80%左右,也就是說所有數據量的80%均可以在一級緩存中找到,只剩下20%的總數據量才須要從二級緩存、三級緩存或內存中讀取。
使用CPU緩存帶來的問題
用一張圖表示一下CPU-->CPU緩存-->主內存數據讀取之間的關係:
當系統運行時,CPU執行計算的過程以下:
若是服務器是單核CPU,那麼這些步驟不會有任何的問題,可是若是服務器是多核CPU,那麼問題來了,以Intel Core i7處理器的高速緩存概念模型爲例(圖片摘自《深刻理解計算機系統》):
試想下面一種狀況:
爲了解決這個問題,CPU製造商制定了一個規則:當一個CPU修改緩存中的字節時,服務器中其餘CPU會被通知,它們的緩存將視爲無效。因而,在上面的狀況下,核3發現本身的緩存中數據已無效,核0將當即把本身的數據寫回主存,而後核3從新讀取該數據。
反彙編Java字節碼,查看彙編層面對volatile關鍵字作了什麼
有了上面的理論基礎,咱們能夠研究volatile關鍵字究竟是如何實現的。首先寫一段簡單的代碼:
1 /** 2 * @author 五月的倉頡http://www.cnblogs.com/xrq730/p/7048693.html 3 */ 4 public class LazySingleton { 5 6 private static volatile LazySingleton instance = null; 7 8 public static LazySingleton getInstance() { 9 if (instance == null) { 10 instance = new LazySingleton(); 11 } 12 13 return instance; 14 } 15 16 public static void main(String[] args) { 17 LazySingleton.getInstance(); 18 } 19 20 }
首先反編譯一下這段代碼的.class文件,看一下生成的字節碼:
沒有任何特別的。要知道,字節碼指令,好比上圖的getstatic、ifnonnull、new等,最終對應到操做系統的層面,都是轉換爲一條一條指令去執行,咱們使用的PC機、應用服務器的CPU架構一般都是IA-32架構的,這種架構採用的指令集是CISC(複雜指令集),而彙編語言則是這種指令集的助記符。
所以,既然在字節碼層面咱們看不出什麼端倪,那下面就看看將代碼轉換爲彙編指令能看出什麼端倪。Windows上要看到以上代碼對應的彙編碼不難(吐槽一句,說說不難,爲了這個問題我找遍了各類資料,差點就準備安裝虛擬機,在Linux系統上搞了),訪問hsdis工具路徑可直接下載hsdis工具,下載完畢以後解壓,將hsdis-amd64.dll與hsdis-amd64.lib兩個文件放在%JAVA_HOME%\jre\bin\server路徑下便可,以下圖:
而後跑main函數,跑main函數以前,加入以下虛擬機參數:
-server -Xcomp -XX:+UnlockDiagnosticVMOptions -XX:+PrintAssembly -XX:CompileCommand=compileonly,*LazySingleton.getInstance
運行main函數便可,代碼生成的彙編指令爲:
1 Java HotSpot(TM) 64-Bit Server VM warning: PrintAssembly is enabled; turning on DebugNonSafepoints to gain additional output 2 CompilerOracle: compileonly *LazySingleton.getInstance 3 Loaded disassembler from D:\JDK\jre\bin\server\hsdis-amd64.dll 4 Decoding compiled method 0x0000000002931150: 5 Code: 6 Argument 0 is unknown.RIP: 0x29312a0 Code size: 0x00000108 7 [Disassembling for mach='amd64'] 8 [Entry Point] 9 [Verified Entry Point] 10 [Constants] 11 # {method} 'getInstance' '()Lorg/xrq/test/design/singleton/LazySingleton;' in 'org/xrq/test/design/singleton/LazySingleton' 12 # [sp+0x20] (sp of caller) 13 0x00000000029312a0: mov dword ptr [rsp+0ffffffffffffa000h],eax 14 0x00000000029312a7: push rbp 15 0x00000000029312a8: sub rsp,10h ;*synchronization entry 16 ; - org.xrq.test.design.singleton.LazySingleton::getInstance@-1 (line 13) 17 0x00000000029312ac: mov r10,7ada9e428h ; {oop(a 'java/lang/Class' = 'org/xrq/test/design/singleton/LazySingleton')} 18 0x00000000029312b6: mov r11d,dword ptr [r10+58h] 19 ;*getstatic instance 20 ; - org.xrq.test.design.singleton.LazySingleton::getInstance@0 (line 13) 21 0x00000000029312ba: test r11d,r11d 22 0x00000000029312bd: je 29312e0h 23 0x00000000029312bf: mov r10,7ada9e428h ; {oop(a 'java/lang/Class' = 'org/xrq/test/design/singleton/LazySingleton')} 24 0x00000000029312c9: mov r11d,dword ptr [r10+58h] 25 0x00000000029312cd: mov rax,r11 26 0x00000000029312d0: shl rax,3h ;*getstatic instance 27 ; - org.xrq.test.design.singleton.LazySingleton::getInstance@16 (line 17) 28 0x00000000029312d4: add rsp,10h 29 0x00000000029312d8: pop rbp 30 0x00000000029312d9: test dword ptr [330000h],eax ; {poll_return} 31 0x00000000029312df: ret 32 0x00000000029312e0: mov rax,qword ptr [r15+60h] 33 0x00000000029312e4: mov r10,rax 34 0x00000000029312e7: add r10,10h 35 0x00000000029312eb: cmp r10,qword ptr [r15+70h] 36 0x00000000029312ef: jnb 293135bh 37 0x00000000029312f1: mov qword ptr [r15+60h],r10 38 0x00000000029312f5: prefetchnta byte ptr [r10+0c0h] 39 0x00000000029312fd: mov r11d,0e07d00b2h ; {oop('org/xrq/test/design/singleton/LazySingleton')} 40 0x0000000002931303: mov r10,qword ptr [r12+r11*8+0b0h] 41 0x000000000293130b: mov qword ptr [rax],r10 42 0x000000000293130e: mov dword ptr [rax+8h],0e07d00b2h 43 ; {oop('org/xrq/test/design/singleton/LazySingleton')} 44 0x0000000002931315: mov dword ptr [rax+0ch],r12d 45 0x0000000002931319: mov rbp,rax ;*new ; - org.xrq.test.design.singleton.LazySingleton::getInstance@6 (line 14) 46 0x000000000293131c: mov rdx,rbp 47 0x000000000293131f: call 2907c60h ; OopMap{rbp=Oop off=132} 48 ;*invokespecial <init> 49 ; - org.xrq.test.design.singleton.LazySingleton::getInstance@10 (line 14) 50 ; {optimized virtual_call} 51 0x0000000002931324: mov r10,rbp 52 0x0000000002931327: shr r10,3h 53 0x000000000293132b: mov r11,7ada9e428h ; {oop(a 'java/lang/Class' = 'org/xrq/test/design/singleton/LazySingleton')} 54 0x0000000002931335: mov dword ptr [r11+58h],r10d 55 0x0000000002931339: mov r10,7ada9e428h ; {oop(a 'java/lang/Class' = 'org/xrq/test/design/singleton/LazySingleton')} 56 0x0000000002931343: shr r10,9h 57 0x0000000002931347: mov r11d,20b2000h 58 0x000000000293134d: mov byte ptr [r11+r10],r12l 59 0x0000000002931351: lock add dword ptr [rsp],0h ;*putstatic instance 60 ; - org.xrq.test.design.singleton.LazySingleton::getInstance@13 (line 14) 61 0x0000000002931356: jmp 29312bfh 62 0x000000000293135b: mov rdx,703e80590h ; {oop('org/xrq/test/design/singleton/LazySingleton')} 63 0x0000000002931365: nop 64 0x0000000002931367: call 292fbe0h ; OopMap{off=204} 65 ;*new ; - org.xrq.test.design.singleton.LazySingleton::getInstance@6 (line 14) 66 ; {runtime_call} 67 0x000000000293136c: jmp 2931319h 68 0x000000000293136e: mov rdx,rax 69 0x0000000002931371: jmp 2931376h 70 0x0000000002931373: mov rdx,rax ;*new ; - org.xrq.test.design.singleton.LazySingleton::getInstance@6 (line 14) 71 0x0000000002931376: add rsp,10h 72 0x000000000293137a: pop rbp 73 0x000000000293137b: jmp 2932b20h ; {runtime_call} 74 [Stub Code] 75 0x0000000002931380: mov rbx,0h ; {no_reloc} 76 0x000000000293138a: jmp 293138ah ; {runtime_call} 77 [Exception Handler] 78 0x000000000293138f: jmp 292fca0h ; {runtime_call} 79 [Deopt Handler Code] 80 0x0000000002931394: call 2931399h 81 0x0000000002931399: sub qword ptr [rsp],5h 82 0x000000000293139e: jmp 2909000h ; {runtime_call} 83 0x00000000029313a3: hlt 84 0x00000000029313a4: hlt 85 0x00000000029313a5: hlt 86 0x00000000029313a6: hlt 87 0x00000000029313a7: hlt
這麼長長的彙編代碼,可能你們不知道CPU在哪裏作了手腳,沒事不難,定位到5九、60兩行:
0x0000000002931351: lock add dword ptr [rsp],0h ;*putstatic instance ; - org.xrq.test.design.singleton.LazySingleton::getInstance@13 (line 14)
之因此定位到這兩行是由於這裏結尾寫明瞭line 14,line 14即volatile變量instance賦值的地方。後面的add dword ptr [rsp],0h都是正常的彙編語句,意思是將雙字節的棧指針寄存器+0,這裏的關鍵就是add前面的lock指令,後面詳細分析一下lock指令的做用和爲何加上lock指令後就能保證volatile關鍵字的內存可見性。
lock指令作了什麼
以前有說過IA-32架構,關於CPU架構的問題你們有興趣的能夠本身查詢一下,這裏查詢一下IA-32手冊關於lock指令的描述,沒有IA-32手冊的能夠去這個地址下載IA-32手冊下載地址,是個中文版本的手冊。
我摘抄一下IA-32手冊中關於lock指令做用的一些描述(由於lock指令的做用在手冊中散落在各處,並非在某一章或者某一節專門講):
在修改內存操做時,使用LOCK前綴去調用加鎖的讀-修改-寫操做,這種機制用於多處理器系統中處理器之間進行可靠的通信,具體描述以下: (1)在Pentium和早期的IA-32處理器中,LOCK前綴會使處理器執行當前指令時產生一個LOCK#信號,這種老是引發顯式總線鎖定出現 (2)在Pentium四、Inter Xeon和P6系列處理器中,加鎖操做是由高速緩存鎖或總線鎖來處理。若是內存訪問有高速緩存且隻影響一個單獨的高速緩存行,那麼操做中就會調用高速緩存鎖,而系統總線和系統內存中的實際區域內不會被鎖定。同時,這條總線上的其它Pentium四、Intel Xeon或者P6系列處理器就回寫全部已修改的數據並使它們的高速緩存失效,以保證系統內存的一致性。若是內存訪問沒有高速緩存且/或它跨越了高速緩存行的邊界,那麼這個處理器就會產生LOCK#信號,並在鎖定操做期間不會響應總線控制請求
32位IA-32處理器支持對系統內存中的某個區域進行加鎖的原子操做。這些操做經常使用來管理共享的數據結構(如信號量、段描述符、系統段或頁表),兩個或多個處理器可能同時會修改這些數據結構中的同一數據域或標誌。處理器使用三個相互依賴的機制來實現加鎖的原子操做: 1、保證原子操做 2、總線加鎖,使用LOCK#信號和LOCK指令前綴 3、高速緩存相干性協議,確保對高速緩存中的數據結構執行原子操做(高速緩存鎖)。這種機制存在於Pentium四、Intel Xeon和P6系列處理器中
IA-32處理器提供有一個LOCK#信號,會在某些關鍵內存操做期間被自動激活,去鎖定系統總線。當這個輸出信號發出的時候,來自其餘處理器或總線代理的控制請求將被阻塞。軟件可以經過預先在指令前添加LOCK前綴來指定須要LOCK語義的其它場合。
在Intel38六、Intel48六、Pentium處理器中,明確地對指令加鎖會致使LOCK#信號的產生。由硬件設計人員來保證系統硬件中LOCK#信號的可用性,以控制處理器間的內存訪問。
對於Pentinum四、Intel Xeon以及P6系列處理器,若是被訪問的內存區域是在處理器內部進行高速緩存的,那麼一般不發出LOCK#信號;相反,加鎖只應用於處理器的高速緩存。
爲顯式地強制執行LOCK語義,軟件能夠在下列指令修改內存區域時使用LOCK前綴。當LOCK前綴被置於其它指令以前或者指令沒有對內存進行寫操做(也就是說目標操做數在寄存器中)時,會產生一個非法操做碼異常(#UD)。 【1】位測試和修改指令(BTS、BTR、BTC) 【2】交換指令(XADD、CMPXCHG、CMPXCHG8B) 【3】自動假設有LOCK前綴的XCHG指令
【4】下列單操做數的算數和邏輯指令:INC、DEC、NOT、NEG
【5】下列雙操做數的算數和邏輯指令:ADD、ADC、SUB、SBB、AND、OR、XOR
一個加鎖的指令會保證對目標操做數所在的內存區域加鎖,可是系統可能會將鎖定區域解釋得稍大一些。
軟件應該使用相同的地址和操做數長度來訪問信號量(用做處理器之間發送信號的共享內存)。例如,若是一個處理器使用一個字來訪問信號量,其它處理器就不該該使用一個字節來訪問這個信號量。
總線鎖的完整性不收內存區域對齊的影響。加鎖語義會一直持續,以知足更新整個操做數所需的總線週期個數。可是,建議加鎖訪問應該對齊在它們的天然邊界上,以提高系統性能:
【1】任何8位訪問的邊界(加鎖或不加鎖)
【2】鎖定的字訪問的16位邊界
【3】鎖定的雙字訪問的32位邊界
【4】鎖定的四字訪問的64位邊界
對全部其它的內存操做和全部可見的外部事件來講,加鎖的操做都是原子的。全部取指令和頁表操做可以越過加鎖的指令。加鎖的指令可用於同步一個處理器寫數據而另外一個處理器讀數據的操做。
IA-32架構提供了幾種機制用來強化或弱化內存排序模型,以處理特殊的編程情形。這些機制包括: 【1】I/O指令、加鎖指令、LOCK前綴以及串行化指令等,強制在處理器上進行較強的排序 【2】SFENCE指令(在Pentium III中引入)和LFENCE指令、MFENCE指令(在Pentium4和Intel Xeon處理器中引入)提供了某些特殊類型內存操做的排序和串行化功能 ...(這裏還有兩條就不寫了) 這些機制能夠經過下面的方式使用。 總線上的內存映射設備和其它I/O設備一般對向它們緩衝區寫操做的順序很敏感,I/O指令(IN指令和OUT指令)如下面的方式對這種訪問執行強寫操做的排序。在執行了一條I/O指令以前,處理器等待以前的全部指令執行完畢以及全部的緩衝區都被都被寫入了內存。只有取指令和頁表查詢可以越過I/O指令,後續指令要等到I/O指令執行完畢纔開始執行。
反覆思考IA-32手冊對lock指令做用的這幾段描述,能夠得出lock指令的幾個做用:
(1)中寫了因爲效率問題,實際後來的處理器都採用鎖緩存來替代鎖總線,這種場景下多緩存的數據一致是經過緩存一致性協議來保證的,咱們來看一下什麼是緩存一致性協議。
緩存一致性協議
講緩存一致性以前,先說一下緩存行的概念:
上面說了,LOCK#會鎖總線,實際上這不現實,由於鎖總線效率過低了。所以最好能作到:使用多組緩存,可是它們的行爲看起來只有一組緩存那樣。緩存一致性協議就是爲了作到這一點而設計的,就像名稱所暗示的那樣,這類協議就是要使多組緩存的內容保持一致。
緩存一致性協議有多種,可是平常處理的大多數計算機設備都屬於"嗅探(snooping)"協議,它的基本思想是:
全部內存的傳輸都發生在一條共享的總線上,而全部的處理器都能看到這條總線:緩存自己是獨立的,可是內存是共享資源,全部的內存訪問都要通過仲裁(同一個指令週期中,只有一個CPU緩存能夠讀寫內存)。
CPU緩存不只僅在作內存傳輸的時候才與總線打交道,而是不停在嗅探總線上發生的數據交換,跟蹤其餘緩存在作什麼。因此當一個緩存表明它所屬的處理器去讀寫內存時,其它處理器都會獲得通知,它們以此來使本身的緩存保持同步。只要某個處理器一寫內存,其它處理器立刻知道這塊內存在它們的緩存段中已失效。
MESI協議是當前最主流的緩存一致性協議,在MESI協議中,每一個緩存行有4個狀態,可用2個bit表示,它們分別是:
這裏的I、S和M狀態已經有了對應的概念:失效/未載入、乾淨以及髒的緩存段。因此這裏新的知識點只有E狀態,表明獨佔式訪問,這個狀態解決了"在咱們開始修改某塊內存以前,咱們須要告訴其它處理器"這一問題:只有當緩存行處於E或者M狀態時,處理器才能去寫它,也就是說只有在這兩種狀態下,處理器是獨佔這個緩存行的。當處理器想寫某個緩存行時,若是它沒有獨佔權,它必須先發送一條"我要獨佔權"的請求給總線,這會通知其它處理器把它們擁有的同一緩存段的拷貝失效(若是有)。只有在得到獨佔權後,處理器才能開始修改數據----而且此時這個處理器知道,這個緩存行只有一份拷貝,在我本身的緩存裏,因此不會有任何衝突。
反之,若是有其它處理器想讀取這個緩存行(立刻能知道,由於一直在嗅探總線),獨佔或已修改的緩存行必須先回到"共享"狀態。若是是已修改的緩存行,那麼還要先把內容回寫到內存中。
由lock指令回看volatile變量讀寫
相信有了上面對於lock的解釋,volatile關鍵字的實現原理應該是一目瞭然了。首先看一張圖:
工做內存Work Memory其實就是對CPU寄存器和高速緩存的抽象,或者說每一個線程的工做內存也能夠簡單理解爲CPU寄存器和高速緩存。
那麼當寫兩條線程Thread-A與Threab-B同時操做主存中的一個volatile變量i時,Thread-A寫了變量i,那麼:
Thread-B讀取變量i,那麼:
由此能夠看出,volatile關鍵字的讀和普通變量的讀取相比基本沒差異,差異主要仍是在變量的寫操做上。
後記
以前對於volatile關鍵字的做用我我的還有一些會混淆的誤區,在深刻理解volatile關鍵字的做用以後,感受對volatile的理解深了許多。相信看到文章這裏的你,只要肯想、肯研究,必定會和我同樣有恍然大悟、茅塞頓開的感受^_^
參考資料
《IA-32架構軟件開發人員手冊 第3卷:系統編程指南》
《Java併發編程的藝術》
《深刻理解Java虛擬機:JVM高級特性與最佳實踐》