小螞蟻說:支付寶紅藍CP又開始平常「互懟」啦!爲了迎接年度技術「期末考試」周,技術藍軍每週都會組織突襲攻擊「測驗」,經過實戰中發掘出來的脆弱點牽引紅軍進行能力升級。而紅軍的防控體系建設也在如火如荼地進行着,實時覈對平臺可以作到穩定的分鐘級覈對異常發現能力,還能提供業務快速接入的能力。安全
爲提高全面風險意識,持續提高業務及技術架構的風險應對能力,從2016年開始,支付寶探索並創建了「紅藍對抗」機制,經過全棧級別的大型技術攻防演練,加強團隊應急處理能力和系統防禦水平。架構
支付寶技術藍軍正在佈置「突襲」計劃運維
「技術風險是全部螞蟻技術人須要具有的最關鍵的能力」, 螞蟻金服副CTO胡喜介紹,隨着今年12月技術期末考周結束,支付寶技術團隊正將風險從一個不肯定的事變爲肯定性的事。spa
支付寶低調神祕部門SRE浮出水面blog
「紅軍重點防守,藍軍重點進攻,實現以演練促防護,以演練加強風險意識的長期目標」,螞蟻金服技術風險部資深總監陳亮介紹,藍軍從屬SRE部門,紅軍包括SRE及各業務部門技術團隊。圖片
SRE全拼爲Site Reliability Engineer,是軟件工程師和系統管理員的結合。據悉,目前全球只有少數幾家頂級互聯網公司擁有真正意義上的SRE團隊,螞蟻金服是其中之一。支付寶
支付寶這支技術藍軍的主要職能是尋找系統「軟肋」,並隨時攻擊。陳亮介紹,除了每一年12月第三個星期爲年度技術「期末考試」周,平常中每週技術藍軍都會組織突襲攻擊「測驗」,經過實戰中發掘出來的脆弱點牽引紅軍進行能力升級。產品
支付寶風險防控能力全面開放it
除了每週「突襲」,每一年還有期中考試和期末考試各一場。這樣三年實踐下來,支付寶的「紅藍對抗」演練已經沉澱爲一整套成熟的風險防控體系,經過仿真環境模擬天災人禍,以此考驗技術架構的健壯性及技術人員的應急能力,從而全面地提高系統穩定,實現系統的高可靠性和高可用性。class
「技術風險主要表現爲天災和人禍。天災指的是,當出現颱風、斷網、火情等極端異常狀況的時候,系統如何快速應對「。陳亮介紹,這有點相似於今年杭州雲棲ATEC大會上,螞蟻金服副CTO胡喜現場演練的異常斷網狀況下,「三地五中心」自動切換,保證支付服務不中斷。人禍則是指因技術人員操做失誤引起故障後,系統如何快速應。
據悉,這些技術風險相關的能力也經過螞蟻金融科技官網(tech.antfin.com)正式對外開放。目前,包括容災應急平臺、全鏈路壓測、資金安全監控、變動管控、巡檢平臺以及黑屏運維管控等產品。