1.4 URL管理器

URL管理器的作用 URL管理器的作用:管理待抓取URL集合和已抓取URL集合。防止重複循環抓取死循環。 URL管理器的實現方式 URL管理器的實現方式有三種: 適合個人的:內存 爲啥用set()呢? 因爲:python的set可以自動去除重複的元素。 小型企業或個人:關係數據庫(永久存儲或內存不夠用) 用一個字段表示URL 用另一個字段判斷是否被爬取過。 大型互聯網公司:緩存數據庫(高性能)
相關文章
相關標籤/搜索