Python即時網絡爬蟲項目: 內容提取器的定義

項目背景 在python 即時網絡爬蟲項目啓動說明中我們討論一個數字:程序員浪費在調測內容提取規則上的時間,從而我們發起了這個項目,把程序員從繁瑣的調測規則中解放出來,投入到更高端的數據處理工作中。 解決方案 爲了解決這個問題,我們把影響通用性和工作效率的提取器隔離出來,描述瞭如下的數據處理流程圖: 圖中「可插拔提取器」必須很強的模塊化,那麼關鍵的接口有: 標準化的輸入:以標準的HTML DOM對
相關文章
相關標籤/搜索