驚魂48小時,阿里工程師如何緊急定位線上內存泄露?

阿里妹導讀:雲計算場景下的大規模分佈式系統中,網絡異常、磁盤IO異常、時鐘跳變、操做系統異常乃至軟件自己可能存在bugs等,均給分佈式系統正確運行帶來了挑戰。持續的監控報警完善是打造穩定高可用分佈式系統過程當中很是重要的工做,這個也就要求咱們研發同窗從細節處入手,本文將介紹的場景是針對線上報警的一絲異常,抽絲剝繭找到內存泄露的root cause,全程48小時,跟進修復了潛在風險隱患,並進一步豐富
相關文章
相關標籤/搜索