[Spark]Spark Streaming 指南三 DStreams

離散流或者DStreams是Spark Streaming提供的基本抽象,它代表一個連續的數據流。從源中獲取輸入流,或者是輸入流通過轉換算子生成的處理後的數據流。在內部,DStreams由一系列連續的 RDD組成。這是Spark對不可變,分佈式數據集的抽象(更多細節參見Spark編程指南)。 DStream中的每個RDD包含來自特定間隔的數據,如下圖所示: 對DStream應用的任何操作都會轉換爲
相關文章
相關標籤/搜索