spark streaming拉取kafka數據, 結合sparkSql dataframe hive存儲計算,輸出到mysql

spark streaming拉取kafka數據, 結合sparkSql dataframe hive存儲計算,輸出到mysql.java 數據清洗過程比較複雜,沒辦法,上游給的屢同樣的數據,正則去解析並全量按時間取最新一條去重。node 天天kafka數據5千萬條。1分鐘要刷一次,看上去還能夠知足。只有屢同樣去堆代碼了。mysql package biReportJob.streaming i
相關文章
相關標籤/搜索