Python爬蟲流程

爬蟲基本流程 發起請求 經過HTTP庫向目標服務器發送Request,Request內能夠包含額外的headers信息。 獲取響應內容 若是服務器正常響應,會返回Response, 裏面包含的就是該頁面的內容。 解析數據 內容或許是HTML,能夠用正則表達式、網頁解析庫進行解析。 或許是Json,能夠直接轉換爲Json對象解析。 保存數據 能夠存儲爲文本,也能夠保存至數據庫,或其餘特定類型文件。
相關文章
相關標籤/搜索