基於搜狗微信的公衆號文章爬蟲

需求分析 先來看一下目標網站。 這次爬取的內容是通過搜狗微信的接口獲取微信文章的 url 然後提取目標文章的內容及公衆號信息。 可以指定內容進行爬取 那這次需要解決的問題有哪些呢? 需要解決的問題 搜狗微信在沒有登錄的情況下可以爬取十頁信息,我們想要獲取更多的信息只能登錄。在登錄的情況下,爬取數據量太大會被封 IP 。這裏給出的解決方案是使用代理池的方法。我這裏是自己搭建了一個小的IP代理池,在我
相關文章
相關標籤/搜索