判斷爬取的文件數量是否完全

描述:最近爬取了某大學的論文網站上面的論文,但是發現網頁上數量是227篇,我下載下來只有226篇,所以寫了此代碼想找出來少了那一篇。 過程中,我先是判斷了兩個列表中是否存在不同的元素並輸出,但是發現是完全相同的,接着我就想可能是網頁中存在重複的元素,就判斷了urll列表中是否自身包含重複元素。 結果:最後發現該網站類別下有兩篇相同的文章,我的爬蟲代碼裏有判斷去重,所以只下載了226篇。 代碼: f
相關文章
相關標籤/搜索