spark系列三：sparkstreaming之輸入DStream之Kafka數據源實戰（基於Direct的方式）

時間 2020-08-19

標籤 spark 系列 sparkstreaming 輸入 dstream kafka 數據實戰基於 direct 方式欄目 Spark 简体版

原文原文鏈接

基於Receiver的直接方式，是在Spark 1.3中引入的，從而可以確保更加健壯的機制。替代掉使用Receiver來接收數據後，這種方式會週期性地查詢Kafka，來得到每一個topic+partition的最新的offset，從而定義每一個batch的offset的範圍。當處理數據的job啓動時，就會使用Kafka的簡單consumer api來獲取Kafka指定offset範圍的數據。這種

>>阅读原文<<