flink的checkpoint頁面監控

  flink web頁面中提供了針對Job Checkpoint相關的監控信息。Checkpoint監控頁面共有overview、history、summary和configuration四個頁籤,分別對Checkpoint從不一樣的角度進行了監控,每一個頁面中都包含了與Checkpointing相關的指標。web

1、overviewrest

overview頁籤中宏觀地記錄了flink應用中Checkpoint的數量以及Checkpoint的最新記錄,包括失敗和完成的Checkpoint記錄。資源

overview頁籤中包含了一下指標:io

  • Checkpoint counts:包含了觸發、進行中、完成、失敗、重置等Checkpoint狀態數量統計。
  • lastest completed Checkpoint:記錄了最近一次完成的Checkpoint信息,包括結束時間,端到端市場,狀態大小等。
  • lastest faild Checkpoint:記錄了最近一次失敗的Checkpoint信息。
  • lastest savepoint:記錄了最近一次savepoint觸發的信息。
  • lastest restore:記錄了最近一次重置操做的信息,包括從Checkpoint到savepoint兩種數據中重置恢復任務。

2、historyast

history頁面記錄了歷史觸發Checkpoint的詳情,包括Checkpoint的ID、狀態、觸發時間,最後一次Acknowledgement信息等,經過點擊More details對應的連接能夠查看子task對應的Checkpoint數據test

3、summary監控

summary頁面中記錄了全部完成的Checkpoint統計指標的最大值、最小值,以及平均值等,指標中包含端對端的持續時間、狀態大小,以及分配過程當中緩衝的數據大小。配置

4、configurationim

  • configuration中包含Checkpoint中全部的基本配置,具體配置以下:
  • Checkpoint mode:標記Checkpoint是exactly once 仍是 at least once的模式。
  • interval:Checkpoint觸發的時間間隔,時間間隔越小意味着越頻繁的Checkpoint。
  • timeout:Checkpoint觸發超時時間,超過指定時間JobManager會取消當次Checkpoint,並從新啓動新的Checkpoint。
  • minimum pause between Checkpoint:配置兩個Checkpoint之間最短期間隔,當上一次Checkpoint結束後,須要等待該時間間隔才能觸發下一次Checkpoint,避免觸發過多的Checkpoint致使系統資源被消耗。
  • persist Checkpoint externally:若是開啓Checkpoint,數據將同時寫到外部持久化存儲中
相關文章
相關標籤/搜索