晚七點恰好上地鐵,握在手裏的手機震動了好幾下,根據震動這幾下的手感已經判斷出這是釘釘在告警了,十有八九就是線上的問題,經過Zabbix監控的一臺線上服務器已經五分鐘不可達,這應該不會是網絡網絡問題了,若是是網絡問題,其餘線上機器應該都會不可達。沒背電腦,只能乾着急,後來大概看了一下雲平臺是由於CPU太高致使的。過了大概半個小時,有自動恢復了。
其實這個問題隱隱約約出現好幾回了,只是沒去重視,今天一來到公司就開始打開xshell,啪啪啪幾下登陸上去以後,袖子一卷,準備好好排查一下,看看究竟是何方妖怪讓個人CPU飆升還機器都連不上去。linux
呆呆的看着這個黑色的框框,沒錯,我呆呆的看着他看了一天了。由於我徹底沒有頭緒,沒有思路,從哪裏下手?按照平時的套路,看日誌,打開幾個相關的日誌,眼睛都瞄沒了,也沒找到什麼有用的東西。網上搜索一下,看看有麼有什麼好的辦法排查,打開Google,打開baidu,千篇一概,簡直就是複製粘貼,基本上使用top找到CPU佔用高的進程,而後看進程的日誌。可是我如今已經不是第一現場了。回想起了之前面試的時候面試過常常會問當你的機器CPU忽然很高時,你怎麼辦?頭腦裏也一次又一次的出現平時說要好好看看linux系統的書,沒看,真後悔,等此次後我必定要把這方面的知識好好學習學習,系統的學習。但是等今晚回去睡一覺,明早一醒來,仍是原樣。面試
日復一日,年復一年,畢業已三年半,運維職業生涯將近四年。三天打魚,兩天曬網,今天看Docker,明天看ELK,樣樣都沒學通。基礎底層的東西仍是一竅不通。有時候能明顯的感受到本身腦殼裏那點知識是少之又少。如今作運維感受都是很先進的東西,AIOps,DevOps,這些東西不學也不行。但我以爲無論什麼Ops,基礎仍是很重要。仍是打算在跟上時代的腳步時,想往系統運維這一塊深刻發展。
單從Zabbix的這幾個CPU監控項來講,每一個監控項的意義是什麼,估計會難道一大批跟我同樣的工程師們。shell
system.cpu.switches system.cpu.util[,guest_nice] system.cpu.util[,guest] system.cpu.util[,idle] system.cpu.util[,interrupt] system.cpu.util[,iowait] system.cpu.util[,nice] system.cpu.util[,softirq] system.cpu.util[,steal] system.cpu.util[,system] system.cpu.util[,user] system.cpu.intr system.cpu.load[percpu,avg1]
不知不覺天已黑,又到了下班,內心多了幾分沉重感。
服務器