基於搜狗微信的公衆號文章爬蟲

時間 2021-01-03

原文原文鏈接

需求分析先來看一下目標網站。這次爬取的內容是通過搜狗微信的接口獲取微信文章的 url 然後提取目標文章的內容及公衆號信息。可以指定內容進行爬取那這次需要解決的問題有哪些呢？需要解決的問題搜狗微信在沒有登錄的情況下可以爬取十頁信息，我們想要獲取更多的信息只能登錄。在登錄的情況下，爬取數據量太大會被封 IP 。這裏給出的解決方案是使用代理池的方法。我這裏是自己搭建了一個小的IP代理池，在我

>>阅读原文<<