Ali1688爬蟲實踐(2)

前面文章是基礎篇,也是參考網上一些資料做的一個實驗,結果效率太差,直接捨棄,第二種方法採用的是scrapy+xpath+mongodb+第三方ip代理做的數據爬取,下面簡單做個網頁分析   由於從首頁進入一個個搜索的話會有很多彈窗,所以考慮過用selenium模擬點擊關閉各種彈窗以及驗證等等,但是效率實在不敢恭維,雖然封ip沒那麼嚴重,但是沒那麼多時間消耗,所以後來考慮直接通過1688供應商按省市
相關文章
相關標籤/搜索