三、Spark Streaming消費Kafka數據的兩種方案

SS(Spark Streaming) 是 Spark 上的一個流式處理框架,可以面向海量數據實現高吞吐量、高容錯的實時計算。SS 支持多種類型數據源,包括 Kafka、Flume、twitter、zeroMQ、Kinesis 以及 TCP sockets 等。SS 實時接收數據流,並按照一定的時間間隔(下文稱爲「批處理時間間隔」)將連續的數據流拆分成一批批離散的數據集;然後應用諸如 map、re
相關文章
相關標籤/搜索