cpu使用率太高和jvm old佔用太高排查過程

時間 2019-11-07

標籤 cpu 使用太高 jvm old 佔用排查過程欄目 Java 简体版

原文原文鏈接

今天斷斷續續的收到管理平臺的異常報警，cpu佔用太高和jvm old佔用太高，這個時候趕忙去排查緣由，下面記錄了個人排查過程，可能裏面還有不正確的地方，歡迎各位大佬指正，也歡迎你們關於相似的案例一塊兒交流，下面就看我關於此次排查的過程把服務器

報警

cpu使用率太高報警，接近100%
後續又來了jvm old太高報警

排查過程

首先打開監控平臺看報警節點的cpu使用狀況

登陸服務器找到佔用 cpu太高線程堆棧信息

①經過 top 命令找到佔用cpu最高的 pid[進程id]
jvm

定位到pid是 1469線程

②經過 top -Hp pid 查看進程中佔用cpu太高的 tid[線程id]debug

③經過 printf pid |grep tid 把線程id轉化爲十六進制3d

④經過 jstack pid | grep tid -A 30 定位線程堆棧信息日誌

佔用cpu太高的線程有兩個，其中一個是打印異常日誌的（會new 對象），還有gc線程orm

打印異常堆棧cdn

這個佔用cpu根據堆棧信息就能夠定位，看下代碼，能夠發現new 對象，且打印全棧信息對象

其中ExceptionUtils.getFullStackTrace(e) 屬於commons.lang包blog

能夠發現上面兩個方法會建立不少對象且打印堆棧信息佔用內存

gc線程

能夠發現佔用cpu太高的線程進行大量的gc

經過 jstat -gcutil pid 時間間隔 查看 jc 信息

能夠發現伊甸園區和老年代都已經滿了，且進行了大量的FGC

指標介紹

S0：年輕代第一個倖存區（survivor）使用容量佔用百分比

S1：年輕代第二個倖存區（survivor）使用容量佔用百分比

E：年輕代伊甸園區（eden）使用容量佔用百分比

O：老年代使用容量佔用百分比

P：perm代使用容量佔用百分比

YGC：從應用程序啓動到當前採樣時年輕代gc的次數

YGCT：從應用程序啓動到當前採樣時年輕代gc的時間

FGC：從應用程序啓動到當前採樣時老年代gc的次數

FGCT：從應用程序啓動到當前採樣時老年代gc的時間

GCT：從應用程序啓動到當前採樣時gc總耗時