京東全站爬取,簡單筆記,不涉及代碼

時間 2021-01-20

原文原文鏈接

單機(不是分佈式) 執行時間爲晚上1點40多,運行到第二天1點48,大概12個小時,爬取了48037個網頁不過在運行過程中能看到有時候並沒有進行爬取,而是卡住了還有時候回出現一些錯誤,提取id和re的時候出現問題,沒有發現該元素,預計是某些頁面的格式不同,提取規則也不同,特別是hk頁面(全球購)和圖書頁面以及彩票(這個要去除) 還要ip是個問題,由於是使用github上的輪子造的ip池,但是質

>>阅读原文<<