簡單的爬蟲架構

爬蟲架構 URL管理器對將要爬取的url和已經爬取過的url進行管理。取出待爬取的url傳給網頁下載器。 網頁下載器將url指定的網頁下載下來,存儲成字符串,傳給網頁解析器進行解析。 網頁解析器從網頁字符串內容中取出有價值的數據(也就是我們最終想要的數據)。
相關文章
相關標籤/搜索