幾個Go系統可能遇到的鎖問題

時間 2019-12-07

標籤幾個系統可能遇到問題简体版

原文原文鏈接

以前統一特徵系統在 QA 同窗的幫助下進行了一些壓測，發現了一些問題，這些問題是較爲通用的問題，發出來給其餘同窗參考一下，避免踩一樣的坑。git

底層依賴 sync.Pool 的場景github

有一些開源庫，爲了優化性能，使用了官方提供的 sync.Pool，好比咱們使用的 https://github.com/valyala/fasttemplate 這個庫，每當你執行下面這樣的代碼的時候：網絡

template := "http://{{host}}/?q={{query}}&foo={{bar}}{{bar}}"

    t := fasttemplate.New(template, "{{", "}}")

    s := t.ExecuteString(map[string]interface{}{

        "host":  "google.com",

        "query": url.QueryEscape("hello=world"),

        "bar":   "foobar",

    })

    fmt.Printf("%s", s)

內部都會生成一個 fasttemplate.Template 對象，並帶有一個 byteBufferPool 字段：架構

type Template struct {

    template string

    startTag string

    endTag   string

    texts          [][]byte

    tags           []string

    byteBufferPool bytebufferpool.Pool   ==== 就是這個字段

}

byteBufferPool 底層就是通過封裝的 sync.Pool：併發

type Pool struct {

    calls       [steps]uint64

    calibrating uint64

    defaultSize uint64

    maxSize     uint64

    pool sync.Pool

}

這種設計會帶來一個問題，若是使用方每次請求都 New 一個 Template 對象。並進行求值，好比咱們最初的用法，在每次拿到了用戶的請求以後，都會用參數填入到模板：app

func fromTplToStr(tpl string, params map[string]interface{}) string {

  tplVar := fasttemplate.New(tpl, `{{`, `}}`)

  res := tplVar.ExecuteString(params)

  return res

}

在模板求值的時候：高併發

func (t *Template) ExecuteFuncString(f TagFunc) string {

    bb := t.byteBufferPool.Get()

    if _, err := t.ExecuteFunc(bb, f); err != nil {

        panic(fmt.Sprintf("unexpected error: %s", err))

    }

    s := string(bb.Bytes())

    bb.Reset()

    t.byteBufferPool.Put(bb)

    return s

}

會對該 Template 對象的 byteBufferPool 進行 Get，在使用完以後，把 ByteBuffer Reset 再放回到對象池中。但問題在於，咱們的 Template 對象自己並無進行復用，因此這裏的 byteBufferPool 自己的做用其實並無發揮出來。oop

相反的，由於每個請求都須要新生成一個 sync.Pool，在高併發場景下，執行時會卡在 bb := t.byteBufferPool.Get() 這一句上，經過壓測能夠比較快地發現問題，達到必定 QPS 壓力時，會有大量的 Goroutine 堆積，好比下面有 18910 個 G 堆積在搶鎖代碼上：性能

goroutine profile: total 18910

18903 @ 0x102f20b 0x102f2b3 0x103fa4c 0x103f77d 0x10714df 0x1071d8f 0x1071d26 0x1071a5f 0x12feeb8 0x13005f0 0x13007c3 0x130107b 0x105c931

#   0x103f77c   sync.runtime_SemacquireMutex+0x3c                               /usr/local/go/src/runtime/sema.go:71

#   0x10714de   sync.(*Mutex).Lock+0xfe                                     /usr/local/go/src/sync/mutex.go:134

#   0x1071d8e   sync.(*Pool).pinSlow+0x3e                                   /usr/local/go/src/sync/pool.go:198

#   0x1071d25   sync.(*Pool).pin+0x55                                       /usr/local/go/src/sync/pool.go:191

#   0x1071a5e   sync.(*Pool).Get+0x2e                                       /usr/local/go/src/sync/pool.go:128

#   0x12feeb7   github.com/valyala/fasttemplate/vendor/github.com/valyala/bytebufferpool.(*Pool).Get+0x37   /Users/xargin/go/src/github.com/valyala/fasttemplate/vendor/github.com/valyala/bytebufferpool/pool.go:49

#   0x13005ef   github.com/valyala/fasttemplate.(*Template).ExecuteFuncString+0x3f              /Users/xargin/go/src/github.com/valyala/fasttemplate/template.go:278

#   0x13007c2   github.com/valyala/fasttemplate.(*Template).ExecuteString+0x52                  /Users/xargin/go/src/github.com/valyala/fasttemplate/template.go:299

#   0x130107a   main.loop.func1+0x3a                                        /Users/xargin/test/go/http/httptest.go:22

有大量的 Goroutine 會阻塞在獲取鎖上，爲何呢?繼續看看 sync.Pool 的 Get 流程：學習

func (p *Pool) Get() interface{} {

    if race.Enabled {

        race.Disable()

    }

    l := p.pin()

    x := l.private

    l.private = nil

    runtime_procUnpin()

而後是 pin：

func (p *Pool) pin() *poolLocal {

    pid := runtime_procPin()



    s := atomic.LoadUintptr(&p.localSize) // load-acquire

    l := p.local                          // load-consume

    if uintptr(pid) < s {

        return indexLocal(l, pid)

    }

    return p.pinSlow()

}

由於每個對象的 sync.Pool 都是空的，因此 pin 的流程必定會走到 p.pinSlow：

func (p *Pool) pinSlow() *poolLocal {

    runtime_procUnpin()

    allPoolsMu.Lock()

    defer allPoolsMu.Unlock()

    pid := runtime_procPin()

而 pinSlow 中會用 allPoolsMu 來加鎖，這個 allPoolsMu 主要是爲了保護 allPools 變量：

var (

allPoolsMu Mutex

allPools []*Pool

)

在加了鎖的狀況下，會把用戶新生成的 sync.Pool 對象 append 到 allPools 中：

if p.local == nil {

allPools = append(allPools, p)

}

標準庫的 sync.Pool 之因此要維護這麼一個 allPools 意圖也比較容易推測，主要是爲了 GC 的時候對 pool 進行清理，這也就是爲何說使用 sync.Pool 作對象池時，其中的對象活不過一個 GC 週期的緣由。sync.Pool 自己也是爲了解決大量生成臨時對象對 GC 形成的壓力問題。

說完了流程，問題也就比較明顯了，每個用戶請求最終都須要去搶一把全局鎖，高併發場景下全局鎖是大忌。可是這個全局鎖是由於開源庫間接帶來的全局鎖問題，經過看本身的代碼並非那麼容易發現。

知道了問題，改進方案其實也還好實現，第一是能夠修改開源庫，將 template 的 sync.Pool 做爲全局對象來引用，這樣大部分 pool.Get 不會走到 pinSlow 流程。第二是對 fasttemplate.Template 對象進行復用，道理也是同樣的，就不會有那麼多的 sync.Pool 對象生成了。但前面也提到了，這個是個間接問題，若是開發工做繁忙，不太可能全部的依賴庫把代碼全看完以後再使用，這種狀況下怎麼避免線上的故障呢?

壓測儘可能早作唄。

metrics 上報和 log 鎖

這兩個本質都是同樣的問題，就放在一塊兒了。

公司以前 metrics 上報 client 都是基於 udp 的，大多數作的簡單粗暴，就是一個 client，用戶傳什麼就寫什麼，最終必定會走到：

func (c *UDPConn) WriteToUDP(b []byte, addr *UDPAddr) (int, error) {

    ---------- 刨去無用細節

    n, err := c.writeTo(b, addr)

    ---------- 刨去無用細節

    return n, err

}

或者是：

func (c *UDPConn) WriteTo(b []byte, addr Addr) (int, error) {

    ---------- 刨去無用細節

    n, err := c.writeTo(b, a)

    ---------- 刨去無用細節

    return n, err

}

調用的是：

func (c *UDPConn) writeTo(b []byte, addr *UDPAddr) (int, error) {

---------- 刨去無用細節

return c.fd.writeTo(b, sa)

}

而後：

func (fd *netFD) writeTo(p []byte, sa syscall.Sockaddr) (n int, err error) {

    n, err = fd.pfd.WriteTo(p, sa)

    runtime.KeepAlive(fd)

    return n, wrapSyscallError("sendto", err)

}

而後是：

func (fd *FD) WriteTo(p []byte, sa syscall.Sockaddr) (int, error) {

    if err := fd.writeLock(); err != nil {  =========> 重點在這裏

        return 0, err

    }

    defer fd.writeUnlock()

    for {

        err := syscall.Sendto(fd.Sysfd, p, 0, sa)

        if err == syscall.EAGAIN && fd.pd.pollable() {

            if err = fd.pd.waitWrite(fd.isFile); err == nil {

                continue

            }

        }

        if err != nil {

            return 0, err

        }

        return len(p), nil

    }

}

本質上，就是在高成本的網絡操做上套了一把大的寫鎖，一樣在高併發場景下會致使大量的鎖衝突，進而致使大量的 Goroutine 堆積和接口延遲。

一樣的，知道了問題，解決辦法也很簡單。再看看日誌相關的。由於公司目前大部分日誌都是直接向文件系統寫，本質上同一個時刻操做的是同一個文件，最終都會走到：

func (f *File) Write(b []byte) (n int, err error) {

    n, e := f.write(b)

    return n, err

}

func (f *File) write(b []byte) (n int, err error) {

    n, err = f.pfd.Write(b)

    runtime.KeepAlive(f)

    return n, err

}

而後：

func (fd *FD) Write(p []byte) (int, error) {

    if err := fd.writeLock(); err != nil { =========> 又是 writeLock

        return 0, err

    }

    defer fd.writeUnlock()

    if err := fd.pd.prepareWrite(fd.isFile); err != nil {

        return 0, err

    }

    var nn int

    for {

        ----- 略去不相關內容

        n, err := syscall.Write(fd.Sysfd, p[nn:max])

        ----- 略去無用內容

    }

}

和 UDP 網絡 FD 同樣有 writeLock，在系統打日誌打得不少的狀況下，這個 writeLock 會致使和 metrics 上報同樣的問題。

總結

上面說的幾個問題實際上本質都是併發場景下的 lock contention 問題，全局寫鎖是高併發場景下的性能殺手，一旦大量的 Goroutine 阻塞在寫鎖上，會致使系統的延遲飈升，直至接口超時。在開發系統時，涉及到 sync.Pool、單個 FD 的信息上報、以及寫日誌的場景時，應該多加註意。早作壓測保平安。

感興趣的能夠本身來個人Java架構羣，能夠獲取免費的學習資料，羣號：855801563 對Java技術，架構技術感興趣的同窗，歡迎加羣，一塊兒學習，相互討論。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。