spark系列三:sparkstreaming之輸入DStream之Kafka數據源實戰(基於Direct的方式)

基於Receiver的直接方式,是在Spark 1.3中引入的,從而可以確保更加健壯的機制。替代掉使用Receiver來接收數據後,這種方式會週期性地查詢Kafka,來得到每一個topic+partition的最新的offset,從而定義每一個batch的offset的範圍。當處理數據的job啓動時,就會使用Kafka的簡單consumer api來獲取Kafka指定offset範圍的數據。 這種
相關文章
相關標籤/搜索