Spark Streaming學習筆記

Spark Streaming是構建在Spark基礎上的一個實時數據流處理框架。能夠對流式數據進行可擴展的、高吞吐的、高容錯的實時處理。 批生成間隔(batch interval) 數據採集確是實時的、逐條進行的,而處理數據的單位是一批,因此需要確定一個時間間隔。系統對這個間隔內獲得的數據統一操作,稱爲批生成時間間隔,決定了作業提交的頻率,是系統調優的重要參數。 Dstream(Discretiz
相關文章
相關標籤/搜索