python 爬蟲基本組成

時間 2019-12-04

原文原文鏈接

基本組成爬蟲一般分爲數據採集（網頁下載）、數據處理（網頁解析）和數據存儲（有用的信息持久化）三個部分。html 工做流程：html5 設定抓取目標（種子頁面/起始頁面）並獲取網頁。正則表達式當服務器沒法訪問時，按照指定的重試次數嘗試從新下載頁面。mongodb 在須要的時候設置用戶代理或隱藏真實IP，不然可能沒法訪問頁面。編程對獲取的頁面進行必要的解碼操做而後抓取出須要的信息。瀏覽器在獲取