本篇是調度剖析的第三部分,將重點關注 併發特性。
首先,在我平時遇到問題的時候,特別是若是它是一個新問題,我一開始並不會考慮使用併發的設計去解決它。我會先實現順序執行的邏輯,並確保它能正常工做。而後在可讀性和技術關鍵點都 Review 以後,我纔會開始思考併發執行的實用性和可行性。有的時候,併發執行是一個很好的選擇,有時則不必定。git
在本系列的第一部分中,我解釋了系統調度的機制和語義,若是你打算編寫多線程代碼,我認爲這些機制和語義對於實現正確的邏輯是很重要的。在第二部分中,我解釋了Go 調度的語義,我認爲它能幫助你理解如何在 Go 中編寫高質量的併發程序。在這篇文章中,我會把系統調度和Go 調度的機制和語義結合在一塊兒,以便更深刻地理解什麼纔是併發以及它的本質。github
。在 Go 中,至少要有兩個操做系統硬件線程並至少有兩個 Goroutine 時才能實現並行,每一個 Goroutine 在一個單獨的系統線程上執行指令。segmentfault
其中,有兩個 Goroutine G1
和 G2
再看,在每個邏輯處理器中,都有三個 Goroutine G2 G3 G5
或 G1 G4 G6
輪流共享各自的系統線程。看起來就像這三個 Goroutine 在同時運行着,沒有特定順序地執行它們的指令,並在系統線程上共享時間。
CPU-Bound:這是一種不會致使 Goroutine 主動切換上下文到等待狀態的類型。它會一直不停地進行計算。好比說,計算 π 到第 N 位的 Goroutine 就是 CPU-Bound 的。併發
IO-Bound:與上面相反,這種類型會致使 Goroutine 天然地進入到等待狀態。它包括請求經過網絡訪問資源,或使用系統調用進入操做系統,或等待事件的發生。好比說,須要讀取文件的 Goroutine 就是 IO-Bound。我把同步事件(互斥,原子),會致使 Goroutine 等待的狀況也包含在此類。ide
在 CPU-Bound 中,咱們須要利用並行。由於單個系統線程處理多個 Goroutine 的效率不高。而使用比系統線程更多的 Goroutine 也會拖慢執行速度,由於在系統線程上切換 Goroutine 是有時間成本的。上下文切換會致使發生STW(Stop The World)
在 IO-Bound 中,並行則不是必須的了。單個系統線程能夠高效地處理多個 Goroutine,是由於Goroutine 在執行這類指令時會天然地進入和退出等待狀態。使用比系統線程更多的 Goroutine 能夠加快執行速度,由於此時在系統線程上切換 Goroutine 的延遲成本並不會產生STW
事件。進入到IO阻塞時,CPU就閒下來了,那麼咱們可使不一樣的 Goroutine 有效地複用相同的線程,不讓系統線程閒置。性能
咱們如何評估一個系統線程匹配多少 Gorountine 是最合適的呢?若是 Goroutine 少了,則會沒法充分利用硬件;若是 Goroutine 多了,則會致使上下文切換延遲。這是一個值得考慮的問題,但此時暫不深究。
1 func add(numbers []int) int { 2 var v int 3 for _, n := range numbers { 4 v += n 5 } 6 return v 7 }
在第 1 行,聲明瞭一個名爲add
的函數,它接收一個整型切片並返回切片中全部元素的和。它從第 2 行開始,聲明瞭一個v
變量來保存總和。而後第 3 行,線性地遍歷切片,而且每一個數字被加到v
中。最後在第 6 行,函數將最終的總和返回給調用者。
函數正在執行 CPU-Bound 工做負載,由於實現算法正在執行純數學運算,而且它不會致使 Goroutine 進入等待狀態。這意味着每一個系統線程使用一個 Goroutine 就能夠得到不錯的吞吐量。
下面來看一下併發版本如何實現,聲明一個 addConcurrent
1 func addConcurrent(goroutines int, numbers []int) int { 2 var v int64 3 totalNumbers := len(numbers) 4 lastGoroutine := goroutines - 1 5 stride := totalNumbers / goroutines 6 7 var wg sync.WaitGroup 8 wg.Add(goroutines) 9 10 for g := 0; g < goroutines; g++ { 11 go func(g int) { 12 start := g * stride 13 end := start + stride 14 if g == lastGoroutine { 15 end = totalNumbers 16 } 17 18 var lv int 19 for _, n := range numbers[start:end] { 20 lv += n 21 } 22 23 atomic.AddInt64(&v, int64(lv)) 24 wg.Done() 25 }(g) 26 } 27 28 wg.Wait() 29 30 return int(v) 31 }
第 5 行:計算每一個 Goroutine 的子切片大小。使用輸入切片總數除以 Goroutine 的數量獲得。
第 10 行:建立必定數量的 Goroutine 執行子任務
第 14-16 行:子切片剩下的全部元素都放到最後一個 Goroutine 執行,可能比前幾個 Goroutine 處理的數據要多。
第 23 行:將子結果追加到最終結果中。
func BenchmarkSequential(b *testing.B) { for i := 0; i < b.N; i++ { add(numbers) } } func BenchmarkConcurrent(b *testing.B) { for i := 0; i < b.N; i++ { addConcurrent(runtime.NumCPU(), numbers) } }
如下是全部 Goroutine 只有一個硬件線程可用的結果。順序版本使用 1 Goroutine,併發版本在個人機器上使用runtime.NumCPU
或 8 Goroutines。在這種狀況下,併發版本實際正跑在沒有並行的機制上。
10 Million Numbers using 8 goroutines with 1 core 2.9 GHz Intel 4 Core i7 Concurrency WITHOUT Parallelism ----------------------------------------------------------------------------- $ GOGC=off go test -cpu 1 -run none -bench . -benchtime 3s goos: darwin goarch: amd64 pkg: github.com/ardanlabs/gotraining/topics/go/testing/benchmarks/cpu-bound BenchmarkSequential 1000 5720764 ns/op : ~10% Faster BenchmarkConcurrent 1000 6387344 ns/op BenchmarkSequentialAgain 1000 5614666 ns/op : ~13% Faster BenchmarkConcurrentAgain 1000 6482612 ns/op
結果代表:當只有一個系統線程可用於全部 Goroutine 時,順序版本比並發快約10%到13%。這和咱們以前的理論預期相符,主要就是由於併發版本在單核上的上下文切換和 Goroutine 管理調度的開銷。
如下是每一個 Goroutine 都有單獨可用的系統線程的結果。順序版本使用 1 Goroutine,併發版本在個人機器上使用runtime.NumCPU
或 8 Goroutines。在這種狀況下,併發版本利用上了並行機制。
10 Million Numbers using 8 goroutines with 8 cores 2.9 GHz Intel 4 Core i7 Concurrency WITH Parallelism ----------------------------------------------------------------------------- $ GOGC=off go test -cpu 8 -run none -bench . -benchtime 3s goos: darwin goarch: amd64 pkg: github.com/ardanlabs/gotraining/topics/go/testing/benchmarks/cpu-bound BenchmarkSequential-8 1000 5910799 ns/op BenchmarkConcurrent-8 2000 3362643 ns/op : ~43% Faster BenchmarkSequentialAgain-8 1000 5933444 ns/op BenchmarkConcurrentAgain-8 2000 3477253 ns/op : ~41% Faster
結果代表:當爲每一個 Goroutine 提供單獨的系統線程時,併發版本比順序版本快大約41%到43%。這才也和預期一致,全部 Goroutine 現都在並行運行着,意味着他們真的在同時執行。
另外,咱們也要知道並不是全部的 CPU-Bound 都適合併發。當切分輸入或合併結果的代價很是高時,就不太合適。下面展現一個冒泡排序算法來講明此場景。
01 package main 02 03 import "fmt" 04 05 func bubbleSort(numbers []int) { 06 n := len(numbers) 07 for i := 0; i < n; i++ { 08 if !sweep(numbers, i) { 09 return 10 } 11 } 12 } 13 14 func sweep(numbers []int, currentPass int) bool { 15 var idx int 16 idxNext := idx + 1 17 n := len(numbers) 18 var swap bool 19 20 for idxNext < (n - currentPass) { 21 a := numbers[idx] 22 b := numbers[idxNext] 23 if a > b { 24 numbers[idx] = b 25 numbers[idxNext] = a 26 swap = true 27 } 28 idx++ 29 idxNext = idx + 1 30 } 31 return swap 32 } 33 34 func main() { 35 org := []int{1, 3, 2, 4, 8, 6, 7, 2, 3, 0} 36 fmt.Println(org) 37 38 bubbleSort(org) 39 fmt.Println(org) 40 }
01 func bubbleSortConcurrent(goroutines int, numbers []int) { 02 totalNumbers := len(numbers) 03 lastGoroutine := goroutines - 1 04 stride := totalNumbers / goroutines 05 06 var wg sync.WaitGroup 07 wg.Add(goroutines) 08 09 for g := 0; g < goroutines; g++ { 10 go func(g int) { 11 start := g * stride 12 end := start + stride 13 if g == lastGoroutine { 14 end = totalNumbers 15 } 16 17 bubbleSort(numbers[start:end]) 18 wg.Done() 19 }(g) 20 } 21 22 wg.Wait() 23 24 // Ugh, we have to sort the entire list again. 25 bubbleSort(numbers) 26 }
它使用多個 Goroutine 同時對輸入的一部分進行排序。咱們直接來看結果:
Before: 25 51 15 57 87 10 10 85 90 32 98 53 91 82 84 97 67 37 71 94 26 2 81 79 66 70 93 86 19 81 52 75 85 10 87 49 After: 10 10 15 25 32 51 53 57 85 87 90 98 2 26 37 67 71 79 81 82 84 91 94 97 10 19 49 52 66 70 75 81 85 86 87 93
因爲冒泡排序的本質是依次掃描,第 25 行對 bubbleSort
前面已經舉了兩個 CPU-Bound 的例子,下面咱們來看 IO-Bound。
01 func find(topic string, docs []string) int { 02 var found int 03 for _, doc := range docs { 04 items, err := read(doc) 05 if err != nil { 06 continue 07 } 08 for _, item := range items { 09 if strings.Contains(item.Description, topic) { 10 found++ 11 } 12 } 13 } 14 return found 15 }
第 2 行:聲明瞭一個名爲 found
第 3-4 行:迭代文檔,並使用read
第 8-11 行:使用 strings.Contains
01 func read(doc string) ([]item, error) { 02 time.Sleep(time.Millisecond) // 模擬阻塞的讀 03 var d document 04 if err := xml.Unmarshal([]byte(file), &d); err != nil { 05 return nil, err 06 } 07 return d.Channel.Items, nil 08 }
此功能以 time.Sleep
而後在第 03-07 行,將存儲在全局變量文件中的模擬 xml
01 func findConcurrent(goroutines int, topic string, docs []string) int { 02 var found int64 03 04 ch := make(chan string, len(docs)) 05 for _, doc := range docs { 06 ch <- doc 07 } 08 close(ch) 09 10 var wg sync.WaitGroup 11 wg.Add(goroutines) 12 13 for g := 0; g < goroutines; g++ { 14 go func() { 15 var lFound int64 16 for doc := range ch { 17 items, err := read(doc) 18 if err != nil { 19 continue 20 } 21 for _, item := range items { 22 if strings.Contains(item.Description, topic) { 23 lFound++ 24 } 25 } 26 } 27 atomic.AddInt64(&found, lFound) 28 wg.Done() 29 }() 30 } 31 32 wg.Wait() 33 34 return int(found) 35 }
第 4-7 行:建立一個channel
第 8 行:關閉這個channel
第 16-26 行:每一個 Goroutine 都從同一個channel
並 strings.Contains
第 27 行:將各個 Goroutine 計數加在一塊兒做爲最終計數。
func BenchmarkSequential(b *testing.B) { for i := 0; i < b.N; i++ { find("test", docs) } } func BenchmarkConcurrent(b *testing.B) { for i := 0; i < b.N; i++ { findConcurrent(runtime.NumCPU(), "test", docs) } }
10 Thousand Documents using 8 goroutines with 1 core 2.9 GHz Intel 4 Core i7 Concurrency WITHOUT Parallelism ----------------------------------------------------------------------------- $ GOGC=off go test -cpu 1 -run none -bench . -benchtime 3s goos: darwin goarch: amd64 pkg: github.com/ardanlabs/gotraining/topics/go/testing/benchmarks/io-bound BenchmarkSequential 3 1483458120 ns/op BenchmarkConcurrent 20 188941855 ns/op : ~87% Faster BenchmarkSequentialAgain 2 1502682536 ns/op BenchmarkConcurrentAgain 20 184037843 ns/op : ~88% Faster
當只有一個系統線程時,併發版本比順序版本快大約87%到88%。與預期一致,由於全部 Goroutine 都有效地共享單個系統線程。
10 Thousand Documents using 8 goroutines with 8 core 2.9 GHz Intel 4 Core i7 Concurrency WITH Parallelism ----------------------------------------------------------------------------- $ GOGC=off go test -run none -bench . -benchtime 3s goos: darwin goarch: amd64 pkg: github.com/ardanlabs/gotraining/topics/go/testing/benchmarks/io-bound BenchmarkSequential-8 3 1490947198 ns/op BenchmarkConcurrent-8 20 187382200 ns/op : ~88% Faster BenchmarkSequentialAgain-8 3 1416126029 ns/op BenchmarkConcurrentAgain-8 20 185965460 ns/op : ~87% Faster
咱們能夠清楚地看到,使用 IO-Bound 並不須要並行來得到性能上的巨大提高。這與咱們在 CPU-Bound 中看到的結果相反。當涉及像冒泡排序這樣的算法時,併發的使用會增長複雜性而沒有任何實際的性能優點。因此,咱們在考慮解決方案時,首先要肯定它是否適合併發,而不是盲目認爲使用更多的 Goroutine 就必定會提高性能。