【python面試】爬蟲

時間 2019-11-08

原文原文鏈接

1.爬蟲是一個什麼樣的過程？

2.scrapy的工做原理？

3.scrapy的去重原理？

答：scrapy自己自帶一個去重中間件，scrapy源碼中能夠找到一個dupfilters.py去重器，裏面有個方法叫作request_seen,他在scheduler(發起請求的第一時間)的時候被調用，它的代碼裏面調用了request_fingerprint方法(就是給request生成一個指紋)。scrapy

就是給每個傳遞過來的url生成一個固定長度的惟一哈希值，可是這種量級千萬到億的內存是能夠應付的post