上週運維反饋線上程序出現了OOM,程序日誌中的輸出爲java
Exception in thread "http-nio-8080-exec-1027" java.lang.OutOfMemoryError: Java heap space
Exception in thread "http-nio-8080-exec-1031" java.lang.OutOfMemoryError: Java heap space
複製代碼
看線程名稱應該是tomcat的nio工做線程,線程在處理程序的時候由於沒法在堆中分配更多內存出現了OOM,幸虧JVM啓動參數配置了-XX:+HeapDumpOnOutOfMemoryError,使用MAT打開拿到的hprof文件進行分析。spring
第一步就是打開Histogram看看佔用內存最大的是什麼對象: 數組
max-http-header-size: 10000000
複製代碼
至此,基本已經肯定了八九不離十就是這個不合理的最大http請求頭參數致使的問題。 到這裏還有3個疑問:tomcat
先來看問題1,這個能夠經過MAT在dump中繼續尋找答案。 能夠打開線程視圖,搜索一下tomcat的工做線程,發現線程數量的確不少有401個,可是也只是800的一半: springboot
再來看看問題2,這就須要來找一下源碼了,首先max-http-header-size是springboot定義的參數,查看springboot代碼能夠看到這個參數對於tomcat設置的是MaxHttpHeaderSize:bash
<attribute name="socket.appReadBufSize" required="false">
<p>(int)Each connection that is opened up in Tomcat get associated with
a read ByteBuffer. This attribute controls the size of this buffer. By
default this read buffer is sized at <code>8192</code> bytes. For lower
concurrency, you can increase this to buffer more data. For an extreme
amount of keep alive connections, decrease this number or increase your
heap size.</p>
</attribute>
複製代碼
這也就是爲何以前看到大量的buffer是10008192字節的。顯然還有一批內容是空的10000000字節的buffer應該是output buffer,來看看源碼: 服務器
至於問題3,顯然咱們的應用程序是配置過最大線程的(查看配置後發現的確,咱們配置爲了2000,好吧有點大),不然也不會有401個工做線程(默認150),若是當時併發並不大的話就一種可能,請求很慢,雖然併發不大,可是由於請求執行的慢就須要更多線程,好比TPS是100,可是平均RT是4s的話,就是400線程了。這個問題的答案仍是能夠經過MAT去找,隨便看幾個線程能夠發現不少線程都在等待一個外部服務的返回,這說明外部服務比較慢,去搜索當時的程序日誌能夠發現有不少"feign.RetryableException: Read timed out executing的日誌"。。。。追殺下游去!慢點,咱們的feign的timeout也須要再去設置一下,別被外部服務拖死了。多線程