糗事百科全站爬蟲

以前看到有人寫糗事百科的爬蟲,就爬了幾個頁面,感受太少,一個專業的段子手怎麼能忍; 本文中使用多進程加多線程,段子用戶id保存至redis數據庫,用戶數據及段子內容存儲至mongodb; 本人本身的代理池前段時間沒了,這裏用的是阿布雲代理,說的是每秒支持並行5個代理,其實沒有這麼多,買了三個帳號連續爬一天,總共爬到30多萬個用戶數據,段子200多萬個 阿布雲帳號一小時一塊錢 數據庫: 段子: 這是
相關文章
相關標籤/搜索