Spark Streaming之容錯機制以及事務語義

我們知道RDD本身是一個不可變的,可重新計算的、分佈式的數據集。每一個RDD都會記住確定好的操作血緣關係。 如果因爲某些原因,導致某個worker節點失敗,則導致RDD的某個partition數據丟失了,那麼那個partition可以通過對原始的容錯數據集應用操作血緣,來重新計算。因爲HDFS本身是容錯文件系統的,所以在HDFS的數據不會丟失,最壞情況無非重新計算而已。   但是對於SparkSt
相關文章
相關標籤/搜索