簡單爬蟲架構解析

總體架構

主函數

1、 URL管理器

管理即將爬取的URL和已經爬取的URLhtml

URL管理器

2、 網頁下載器

用於下載網頁cookie

三種urllib實現網頁下載,含cookie模擬登錄

3、 網頁解析器

用於解析網頁,得到有價值數據或者新的待爬取URL填充URL管理器架構

使用bs4的網頁解析器

4、文件輸出

文件輸出

相關文章
相關標籤/搜索