Spark Streaming ------ 有狀態轉化和無狀態轉化

無狀態轉化: 每次計算的時間,僅僅計算當前時間切片的內容,每一個批次處理都不依賴於先前批次的數據。 如,每次只計算1s時間內產生的RDD。spa 有狀態轉化: 依賴以前的批次數據或者中間結果來計算當前批次的數據,不斷的把當前的計算和歷史時間切片的RDD進行累計。 如,計算某個單詞出現的次數,須要把當前的狀態與歷史的狀態相累加,隨着時間的流逝, 數據規模會愈來愈大,包括updateStatebyKe
相關文章
相關標籤/搜索