Spark Streaming管理Kafka偏移量

時間 2020-12-21

標籤 spark spark-streaming kafka 欄目 Spark 简体版

原文原文鏈接

前言爲了讓Spark Streaming消費kafka的數據不丟數據，可以創建Kafka Direct DStream，由Spark Streaming自己管理offset，並不是存到zookeeper。啓用Spark Streaming的 checkpoints是存儲偏移量的最簡單方法，因爲它可以在Spark的框架內輕鬆獲得。 checkpoints將應用程序的狀態保存到HDFS，以便在故

>>阅读原文<<