數據爬取之後,做ETL增量更新數據到原始表

接上面的文章,繼續做大數據平臺。在前些天將所有的數據都爬完了,也都導入的爬蟲數據庫(我們自己建了三個庫,爬蟲庫、原始庫、正式庫)。今天演示從爬蟲庫到原始庫的步驟。 思路: 首先要在原始庫中創建時間戳表,用於保存更新數據後的時間。其次獲取原始表中最後一次更新操作的時間,作爲時間配置。然後對垃圾數據進行刪除(此處的垃圾數據指的是任務中途停止,時間未更新,但原始數據庫裏存在新插入的部分新數據)。其次增量
相關文章
相關標籤/搜索