SparkStreaming示例在集羣中運行

時間 2019-12-06

原文原文鏈接

SparkStreaming是依託於Spark的用於實時計算的工具，按照設置的時間間隔對數據流進行切分爲一個一個的RDD，而後對這些時間段內產生的RDD進行批處理。如圖：socket 主要的處理步驟以下：工具 1.定義好數據源。這裏的數據源可使本地文件，socket套接字連接，也能夠是hdfs，kafka，Flume等產生的數據。oop 2.準備好流計算指令。這裏的指令就

>>阅读原文<<