【爬蟲】使用java爬取mm131美女圖片

前言

最近無心間在知乎專欄看到有人使用python爬取了mm131的圖片。想着本身也有過爬蟲的開發經驗(抱着學習的態度),故使用java也來寫個小爬蟲,爬蟲框架用的是webmagic,傳送門:https://github.com/code4craft/webmagicjava

實現

整個爬蟲項目以下圖,極其精簡,其中主要實現類是Mm131Spider python

啓動Mm131Spider後,圖片會下載到指定的文件夾,以下圖:git

其中每一個主類別(如:/chemo)文件夾有一個urlCheck.txt的文件,主要用於保存已經爬取的url,下一次啓動的時候則不會再去爬取該url,因此任什麼時候候均可以中止/啓動爬取,不會致使爬取重複的問題 github

該項目已push到github,感興趣的朋友能夠自行查看源碼,傳送門:https://github.com/5-Ason/spider-mm131web

相關文章
相關標籤/搜索