Python爬蟲流程

時間 2019-12-05

標籤 python 爬蟲流程欄目 Python 简体版

原文原文鏈接

爬蟲基本流程發起請求經過HTTP庫向目標服務器發送Request，Request內能夠包含額外的headers信息。獲取響應內容若是服務器正常響應，會返回Response，裏面包含的就是該頁面的內容。解析數據內容或許是HTML，能夠用正則表達式、網頁解析庫進行解析。或許是Json，能夠直接轉換爲Json對象解析。保存數據能夠存儲爲文本，也能夠保存至數據庫，或其餘特定類型文件。

>>阅读原文<<