爬蟲系列之數據質量監控(一)

一、概述 1.現狀 最近SaaS平臺、APP等產品,總是採集的數據中存在各種各樣的問題,如標題解析成JavaScript代碼,或者包含一段無用的字符、或者出現一個亂碼字符串等等。 先前的那套監控機制的弊病似乎越來越大,已無法滿足數據監控的需求。 隨着現在的數據類型、定製的採集腳本、涉及到的人員等不斷增多,採集難度的不斷加大,各種各樣的問題頻繁出現。 爲了制定一套真正能夠實時監控數據質量,並能夠快速
相關文章
相關標籤/搜索