驚魂48小時,阿里工程師如何緊急定位線上內存泄露?

導讀:雲計算場景下的大規模分佈式系統中,網絡異常、磁盤IO異常、時鐘跳變、操作系統異常乃至軟件本身可能存在bugs等,均給分佈式系統正確運行帶來了挑戰。持續的監控報警完善是打造穩定高可用分佈式系統過程中非常重要的工作,這個也就要求我們研發同學從細節處入手,本文將介紹的場景是針對線上報警的一絲異常,抽絲剝繭找到內存泄露的root cause,全程48小時,跟進修復了潛在風險隱患,並進一步豐富完善監控
相關文章
相關標籤/搜索