python3多線程爬蟲實現異步更新代理池

這幾天要搞畢業設計,一個簡單的大數據分析系統,既然是大數據分析系統,那麼必定要有數據,目標是用python寫一個爬蟲,爬大約100w條數據html 這就遇到了第一個問題,100w條數據單線程的話須要爬好久,因此要用多線程獲取,這又會有一個新問題,爬取頻率太高的話會被封ip,因此要使用https代理(貌似http不行,會被查出來) 而後又出現一個問題,免費的代理穩定性太差,並且訪問速度慢,本身寫了個
相關文章
相關標籤/搜索