Spark Streaming 流計算優化記錄(2)-不同時間片數據流的Join

1. 不同時間片數據流的Join          初體驗之後, 看了一下Spark WebUi 的日誌, 發現由於Spark Streaming需要每秒跑一次, 以實時計算數據, 所以程序不得不每秒都讀一次HDFS去獲取數據進行inner join.          本來SparkStreaming會對其進行處理的數據進行緩存, 以減少IO和提高計算速度的, 但由於現在我們的場景是要把每秒都有
相關文章
相關標籤/搜索