字節跳動 Flink 單點恢復功能實踐

簡介:在 Flink 現有的架構設計中,多流 Join 拓撲下單個 Task 失敗會導致所有 Task 重新部署,耗時可能會持續幾分鐘,導致作業的輸出斷流,這對於線上業務來說是不可接受的。針對這一痛點,字節提出單點恢復的方案。 背景 在字節跳動的實時計算場景中,我們有很多任務(數量 2k+)會直接服務於線上,其輸出時延和穩定性會直接影響線上產品的用戶體驗,這類任務通常具有如下特點: 流量大,併發高
相關文章
相關標籤/搜索