sparkstreaming性能調優記錄

場景: RDD<JSONObject>,JSONObject裏面有TBNAME字段和PAYLOAD字段,分別表明表名和原始日誌內容 須要1.在原始內容里加入系統時間字段 2.按表名取系統時間逆序取前100條入庫 30s時間窗口,處理2w條數據;4張表,但打的數據均爲1張表的數據 如下我說明的時間都是有數據的表的處理時間(1張表有數據處理,在過其餘表時也須要filter表名,須要耗時;因此整體的批處
相關文章
相關標籤/搜索