爬蟲的原理和思路（自我總結）

時間 2019-12-07

原文原文鏈接

網絡爬蟲框架主要由控制器、解析器和索引庫三大部分組成，而爬蟲工做原理主要是解析器這個環節，解析器的主要工做是下載網頁，進行頁面的處理，主要是將一些JS腳本標籤、CSS代碼內容、空格字符、HTML標籤等內容處理掉，爬蟲的基本工做是由解析器完成。python 解析器的具體流程是：ajax 入口訪問->下載內容->分析結構->提取內容數據庫爬蟲的思路：瀏覽器一、查看該網站是否可爬，robot.txt