Spark Streaming 流計算優化記錄(2)-不同時間片數據流的Join

時間 2021-01-15

原文原文鏈接

1. 不同時間片數據流的Join 初體驗之後, 看了一下Spark WebUi 的日誌, 發現由於Spark Streaming需要每秒跑一次, 以實時計算數據, 所以程序不得不每秒都讀一次HDFS去獲取數據進行inner join. 本來SparkStreaming會對其進行處理的數據進行緩存, 以減少IO和提高計算速度的, 但由於現在我們的場景是要把每秒都有

>>阅读原文<<