2020-10-05

背景 在計算與存儲一體化的狀況,spark任務在調度task時會優先將其調度在數據所在的節點上或者相同的rack上,這樣能夠減小數據在不一樣節點或者不一樣rack上移動所帶來的性能消耗;目前在Flink on yarn模式下,TaskExecutor的資源位置徹底由yarn自主控制的,那麼就可能會形成任務所在的節點與kafka數據所在的節點不在同一個機房,從而產生跨機房的流量消耗,在這樣的一個環境
相關文章
相關標籤/搜索