爬蟲系列之數據質量監控(三):數據推送統一接口邏輯處理

(一)KAFKA統一數據推送接口 1) 非空校驗 處理邏輯:除標題爲空數據直接存入異常MySQL庫中外,其他類型的數據直接流到數據質量校驗步驟進行分析; 2) 數據質量校驗 主要是根據每個字段設置的校驗規則,對其進行相應的校驗處理。 3) 二次排重處理: 由於Bloom Filte中的元素只可以添加,不可以被刪除。又由於數據量較大(每天5000W左右),長時間會耗費很多內存資源,投入較大。   同
相關文章
相關標籤/搜索