spark 10分鐘計算一次mongodb當天日誌數據,日誌爲字符串格式,按訂單號去重,取時間最近的訂單,優化方案

spark 10分鐘計算一次mongodb當天日誌數據,日誌爲字符串格式,按訂單號去重,取時間最近的訂單,優化方案java 問題:解析字符串,構建spark dataframe結果集,全量去重,數據量過多,解析複雜,致使從早上1分鐘到晚上30分鐘才能跑完一次任務。 spark  streaming的接收源通常是推來的,不像kafka會推過來,而後再根據偏移量來記錄刻度, 優化方案:按小時去清理數據
相關文章
相關標籤/搜索