Spark Structured Stream的流關聯(Stream-Stream Joins)

自Spark 2.3開始,Spark Structured Streaming開始支持Stream-stream Joins。兩個流之間的join與靜態的數據集之間的join有一個很大的不一樣,那就是,對於流來講,在任意時刻,在join的兩邊(也就是兩個流上),數據都是「不徹底」的,當前流上的任何一行數據均可能會和被join的流上的將來某行數據匹配到,爲此,Spark必需要緩存流上過去全部的輸入,
相關文章
相關標籤/搜索