爬蟲的原理和思路(自我總結)

網絡爬蟲框架主要由控制器、解析器和索引庫三大部分組成,而爬蟲工做原理主要是解析器這個環節,解析器的主要工做是下載網頁,進行頁面的處理,主要是將一些JS腳本標籤、CSS代碼內容、空格字符、HTML標籤等內容處理掉,爬蟲的基本工做是由解析器完成。python 解析器的具體流程是:ajax 入口訪問->下載內容->分析結構->提取內容數據庫 爬蟲的思路:瀏覽器 一、查看該網站是否可爬,robot.txt
相關文章
相關標籤/搜索