記一次上線就跪的故障排查案例

這個是我很早以前解決的一個案例,其現象是系統每次上線後,20多臺機器,總有兩三機器,出現假死的情況。如何判斷出系統假死?藉助的是一個第三方公司運維監控平臺;這種情況,前同事稱之爲的「假死」,需要重新啓動系統才能恢復。因爲我是新來乍到,覺得這種情況不正常,而且對研發(在這邊是研發上線)來說,是一個非常大的上線負擔;於是我決定解決一下這個「百年難題」。 我親自上線,果然很快就碰到了假死的機器。我看到機
相關文章
相關標籤/搜索