spark streaming拉取kafka數據，結合sparkSql dataframe hive存儲計算，輸出到mysql

時間 2020-01-21

標籤 spark streaming kafka 數據結合 sparksql dataframe hive 存儲計算輸出 mysql 欄目 Spark 简体版

原文原文鏈接

spark streaming拉取kafka數據，結合sparkSql dataframe hive存儲計算，輸出到mysql.java 數據清洗過程比較複雜，沒辦法，上游給的屢同樣的數據，正則去解析並全量按時間取最新一條去重。node 天天kafka數據5千萬條。1分鐘要刷一次，看上去還能夠知足。只有屢同樣去堆代碼了。mysql package biReportJob.streaming i

>>阅读原文<<