spark學習筆記5 spark容錯性

通常來講,分佈式數據集的容錯性有兩種方式:數據檢查點和記錄數據的更新。 面向大規模數據分析,數據檢查點操做成本很高,須要經過數據中心的網絡鏈接在機器之間複製龐大的數據集,而網絡帶寬每每比內存帶寬低得多,同時還須要消耗更多的存儲資源。 所以,Spark選擇記錄更新的方式。 可是,若是更新粒度太細太多,那麼記錄更新成本也不低。 所以,RDD只支持粗粒度轉換,即在大量記錄上執行的單個操做。 將建立RDD
相關文章
相關標籤/搜索