Spark Streaming 流計算優化記錄(1)-背景介紹

時間 2020-12-29

原文原文鏈接

1.背景概述業務上有一定的需求, 希望能實時地對從中間件進來的數據已經已有的維度表進行inner join, 以便後續的統計. 維表十分巨大, 有近3千萬記錄,約3G數據, 而集羣的資源也較緊張, 因此希望儘可能壓榨Spark Streaming的性能和吞吐量. 技術架構大致上如下述: 數據從Kafka流入, SparkStreaming 會從HDFS中拿到維度表的數據, 與流入的消息進行計算,

>>阅读原文<<