一行代碼引起的集羣服務宕掉的血案分析

本文禁止轉載!java

緊急處理過程

11.05號晚上接近20點,有同事反應其它服務調用XXX服務出現少許超時,看了下Cat監控,發現些許機器當時處於fullgc,由於咱們的XXX服務自己在高峯期就有較爲頻繁的fullgc,而且當天我還灰度了一臺調過JVM參的XXX機器(本意是解決以前fullgc問題)。 因此當時誤覺得是像往常同樣的fullgc引起的上游超時,同時從Cat gc指標來看,我灰度的一臺XXX機器都優於其它機器,同時查看超時報警消息都不涉及灰度的機器,從而也排除了本次灰度的因素。你們持續觀察後,報警愈來愈頻繁,fullgc也愈來愈頻繁,頻次已遠遠高於以前的高峯期,就在想有哪些因素的變更把以前的fullgc問題給放大了,詢問相關業務並無數據量級變更。web

73d910d029c24799b866bab80ea52393-image.png

隨着fullgc愈來愈頻繁,觀察到今天的fullgc後old區內存回收較少,居高不下,馬上猜想是由於下午的XXX服務業務上線的代碼極可能有內存泄露的問題,立馬告知上線同窗回滾代碼,此時XXX集羣服務已不可用同時你們商討緊急預案,評估XXX服務哪些場景的請求可作最壞降級,畢竟XX服務只關注排序體驗,幸虧客戶端調用超時時間是1s,上游業務沒有被拖垮,沒有影響到商城召回。登錄高內存機器經過jmap查看實例狀況:
a4f56e4a6be84e2e8f309767ce420145-image.png
查看灰度的一臺機器的gc日誌,能夠看到新生代每次gc,對象都會由於晉升擔保到老年代,new threshold 已被動態調整爲1,甚至:
42a9b5a8bc8f4dd5b1174d296c91002d-image.png編程

427819   class space    used 9908K, capacity 10491K, committed 10624K, reserved 1048576K
427820 2019-11-05T20:12:56.043+0800: 17269.148: [GC (Allocation Failure) 17269.148: [ParNew
427821 Desired survivor size 100191432 bytes, new threshold 1 (max 15)
427822 - age   1:  142964632 bytes,  142964632 total
427823 : 1258304K->139776K(1258304K), 0.2134974 secs] 3853016K->2923653K(4054528K), 0.2140106 secs] [Times: user=1.32 sys=0.05, real=0.21 secs]
427824 Heap after GC invocations=12249 (full 57):

以後觀察到回滾後機器指標趨於正常了,因此肯定了case和這次上線有關,開始diff代碼查找內存泄露的地方緩存

過後排查

首先跟上線同窗進行了代碼走讀,重點關注有沒有引入HashMap相關邏輯致使內存泄漏,然而並無定位出緣由。在Cat上查看當時的線程堆棧,發現JVM線程數打到1.5k+,而且觀察到大量業務線程block到某個同步代碼塊上。
fe21a63031e341618a4137adcda1f04a-image.png
此時猜想死鎖?或者同步塊內有耗時任務?轉而詢問上線同窗均排除了這兩種可能。帶着爲何會大量block的疑問,趕忙觀察了Cat上cpu相關指標,load飆升和cpu buzy持續100%,意味着CPU某核心被打滿。
ffb0e4b6598e46bab18f2bbb5ec914c7-image.png多線程

那麼問題來了,還有7個core來跑業務線程啊,也不至於block業務線程的。當時模模糊糊懷疑是業務失控建立了大量線程,內存資源大量消耗,並大量阻塞在syncrhonized 的wait_list,同時從Cat能看到整個服務端請求處理耗時飆升到幾十秒了,大量線程持有的內存因gc年齡大量晉升到老年代,進而致使了頻繁fullgc,(這裏的猜想後來證實並不正確,事實上有點「雞生蛋,蛋生雞」的味道)。接着上線的同窗果然排查到有行代碼存在bug: 在進行特徵加載的時候,會致使每一個請求可能建立上千的子任務投遞到線程池,newCachedThreadPool!線程建立無上限。。。排查到這裏,彷佛以爲找到了內存打滿fullgc的緣由。但到這裏其實還解釋不了爲何CPU buzy 100%的現象。
咱們在凌晨對上線的代碼進行了壓測,復現線上問題。在壓測時,能夠經過jstack命看到Java進程下一個很突兀的高消耗CPU的線程,CPU%指標逼近100%。打印該線程棧看它在作一些什麼事情。app

Streams$ConcatSpliterator.forEachRemaining(Streams.java:742)
 340     at java.util.stream.Streams$ConcatSpliterator.forEachRemaining(Streams.java:742)
 341     at java.util.stream.Streams$ConcatSpliterator.forEachRemaining(Streams.java:742)
 342     at java.util.stream.Streams$ConcatSpliterator.forEachRemaining(Streams.java:742)
 343     at java.util.stream.AbstractPipeline.copyInto(AbstractPipeline.java:512)
 344     at java.util.stream.AbstractPipeline.wrapAndCopyInto(AbstractPipeline.java:502)
 345     at java.util.stream.ReduceOps$ReduceOp.evaluateSequential(ReduceOps.java:708)
 346     at java.util.stream.AbstractPipeline.evaluate(AbstractPipeline.java:234)
 347     at java.util.stream.ReferencePipeline.collect(ReferencePipeline.java:499)
 348     at com.xxx.service.feature.logger.PrintUnit.countState(PrintUnit.java:69)
 349     at com.xxx.service.feature.logger.PrintJob.lambda$printFeatureCountNow$59(PrintJob.java:151)

能夠看到佔用CPU%的線程在執行咱們業務裏特徵日誌打印的邏輯,迅速讓同事定位到某行代碼,看爲何會那麼消耗CPU,review一遍這塊代碼(本次新上線的一條日誌打印),看起來邏輯只是循環拼接了一些要打印的日誌,看起來並無複雜的業務邏輯,同時review到 日誌打印線程是單線程,因此不存在用到的HashMap跑飛。那隻能是循環次數很大很大?同事說確實比較大,較大的能達到上萬次,那關鍵問題是上萬次規模的循環也不至於CPU100%啊!咱們加了關鍵邏輯的代碼耗時,看看到底每一個業務請求在特徵打印階段會致使多少次遍歷,耗時多少,從新壓測後,驚人的發現日誌打印耗時不少能達到上百ms!正常狀況下server端業務線程耗時才幾十ms。去掉本次上線的日誌打印邏輯,從新壓測,指標正常。至此基本鎖定到是這塊代碼問題,但看起來並無哪行代碼那麼耗時,但隱隱約約聽過String.format底層有坑?問題定位後,下半夜就回家了。
11.06號上午,在網上看了String.formatStringBuilder性能評測,並親測String.format耗時相比StringBuilder高20倍左右。
因此得出初步結論: 直接緣由是日誌打印單線程邏輯耗時較長(大循環+String.format),在高峯期致使消息積壓在線程池的任務隊列裏,而任務全都是計算型,並無任何IO阻塞或睡眠操做,很難釋放CPU資源,進而致使相似於在run()寫了個死循環!因爲消息堆積致使內存激增,fullgc頻次激增,多個GC線程CPU消耗激增,業務線程hang住,客戶端請求無響應超時,斷開鏈接,服務端close_wait飆升至幾k。
803160ef24f44413907666af2b028f07-image.pngdom

驗證結論:ide

在本地模擬了業務代碼的線程模型,每1s提交到隊列50個任務,單線程處理隊列任務。run()方法裏模擬了日誌打印的循環規模和耗時的String.format代碼。運行後,發現打印的隊列大小是持續增長的。若是放開循環裏的字符串拼接註釋,消息隊列就沒有了堆積。其實本質緣由仍是線程池參數設置不合理,致使生產者消費者失衡。svg

public static void main(String[] args) throws InterruptedException {
        BlockingQueue<Runnable> blockingQueue = new LinkedBlockingQueue<>(99200);
        ThreadPoolExecutor threadPool = new ThreadPoolExecutor(1, 1,
                0L, TimeUnit.MILLISECONDS, blockingQueue
        ))

        new Thread(new Runnable() {
            @Override
            public void run() {
                while (true) {
                    System.out.println("queueSize:" + blockingQueue.size());
                    for (int i = 0; i < 100; i++) {
                        threadPool.execute(new Runnable() {
                            @Override
                            public void run() {
                                long start2 = System.currentTimeMillis();
                                for (int j = 0; j < 10000; j++) {

                                    //String s = "asdsdsdsaa" + new Random().nextLong() + "bbbbbfbfdsfb" +  new Random().nextLong() + "kkksdskkkkk";
                                    String.format("[%s] $ [%s] : [%s]", new Random().nextLong(), new Random().nextLong(), new Random().nextLong());
                                }

                                try {
                                    Thread.sleep(50);
                                } catch (InterruptedException e) {
                                    e.printStackTrace();
                                }
                                 System.out.println(Thread.currentThread().getName());
                                //System.out.println("time:" + (System.currentTimeMillis() - start2));
                            }
                        });
                    }
                    try {
                        Thread.sleep(1000);
                    } catch (InterruptedException e) {
                        e.printStackTrace();
                    }
                }
            }
        }).start();

問題解決

稍微改改就解決了工具

相關知識

String.format()原理

String.format使用正則來拆分咱們的String,再使用StringBuild來append串起來。

ExecutorService線程池原理

自行讀源碼便可

Reactor響應式編程中的背壓

響應式編程是一種數據流編程,關注於數據流而不是控制流。
背壓是指在數據流從上游生產者向下遊消費者傳輸的過程當中,上游生產速度大於下游消費速度,致使下游的 Buffer 溢出,這種現象就叫作 Backpressure 出現。當上遊向下遊推送數據時,可能下游承受能力不足致使問題,一個經典的比喻是就像用消防水龍頭解渴。所以下游須要向上遊聲明每次只能接受大約多少許的數據,當接受完畢再次向上遊申請數據傳輸。這便轉換成是下游向上遊申請數據,而不是上游向下遊推送數據。無阻塞是經過no-blocking IO提供更高的多線程切換效率。

總結

  1. 線程池參數的修改應該很是很是謹慎! 由於可能好多業務在用
  2. 敬畏每一行代碼的修改,由於每每就由於「多打了一行日誌」的相似問題整個服務掛掉
  3. 重視領域頂層設計,每每決定了後續服務的擴展性,靈活性,健壯性,可維護性。
  4. 要作「正確的事」,而不是作各類事,正確的事 每每是具有長遠價值的事
  5. 禁止使用Executors提供的工具方法,手動建立ThreadPoolExecutor,設置好重要參數。 像案例中兩處使用線程池均致使bug,如newCachedThreadPool萬一線程hang住,線程數就會不可控。
  6. 注意「雪崩效應」。 系統若是但願別的系統問題儘可能減小對自身的影響,建議按期對自身系統的依賴作梳理,儘可能自治。對依賴系統進行:消除依賴、弱化依賴和控制依賴。
  • 消除依賴: 梳理去除、隔離。
    好比系統儘可能減小第三方依賴;核心與非核心業務服務化拆分;服務內各場景線程池級別隔離

  • 弱化依賴: 旁路、緩存。

  • 控制依賴: 熔斷降級、服務限流、設置合理的超時重試。
    本次就由於超時時間設置合理,才基本沒有將風險向上傳遞

經過以上角度來治理咱們的服務,實現高可用

相關文章
相關標籤/搜索